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说 到 软件 定义 数据 中 心 ， 我 们 要 先 从 互联 网 说 起 。 互 联网 在 过 去 二 十 年 里 ， 更 新 了 我 们 的 沟通 模式 ， 加 速 了 我 们 的 信息 获取 ， 变 革 了 我 们 的 购物 习惯 ， 彻 底 地 改变 了 我 们 的 生活 。 不 仅 如 此 ， 互 联网 还 
( 即 服务 ) 的 模式 ， 包 含 了 


颠覆 了 许多 行业 ， 而 此 颠覆 仍 是 进行 时 。 在 企业 级 IT 行业 ， 云 计算 就 是 这 场 颠覆 的 名 字 。 
由 于 互联 网 的 远程 商业 服务 模式 与 超大 规模 技术 架构 的 推广 与 成 熟 ， 使 得 各 行 各 业 看 到 一 个 新 的 IT 云 服务 模式 和 一 个 新 的 IT 云 基础 架构 。 这 个 服务 模式 就 是 “as a Service" 


laaS、PaaS、SaaS， 及 总 称 lTaa$S。 而 这 个 新 的 基础 架构 就 是 这 本 书 的 主角 一 一 SDDC， 即 软件 定义 数据 中 心 。 
如 果 拜 访 任何 一 个 成 功 的 云 服务 商 或 任何 一 个 大 规模 的 互联 网 服务 商 的 数据 中 心 ， 我 们 会 发 现 它们 的 创新 与 技术 几乎 完全 是 由 软件 来 完成 的 。 这 些 数 据 中 心 的 硬件 往往 会 非常 统一 ， 而 不 同 的 计算 、 人 存 
， 伸 缩 规模 相对 简单 ， 部 署 应 用 尤其 迅捷 。 
把 云 基础 架构 运用 到 企业 级 数据 中 心 的 时 机 已 经 成 熟 。 企 业 可 以 在 


储 、 网 络 以 及 管理 功能 则 由 软件 来 实现 。 由 于 这 个 特性 ， 使 得 它们 的 硬件 使 用 率 提高 
而 回头 看 现在 的 企业 级 数据 中 心 ， 还 不 完全 是 这 样 。 同 时 ， 大 多 数 企业 并 不 能 气 弃 自己 的 数据 中 心 而 完全 依赖 公有 云 的 服务 。 但 是 


自己 的 数据 中 心 搭 起 软件 定义 的 私有 云 ， 并 与 公有 云 相通 ， 形 成 混合 云 。 
有 了 以 软件 定义 数据 中 心 为 基础 的 温 合 云 ， 企 业 就 可 以 进退 有 度 ， 游 轧 有 余 。 加 上 成 功 管理 新 的 移动 终端 技术 ， 可 轻松 进入 “ 云 移 动 ” 时 代 ! 这 也 是 为 什么 软件 定义 数据 中 心 最 近 获 得 大 家 关注 的 根本 


原因 。EMC 中 国 研究 院 编著 的 这 本 《软件 定义 数据 中 心 : 技术 与 实践 》 怡 着 其 时 ， 它 会 向 读者 详细 解说 怎么 实现 软件 定义 数据 中 心 。 
从 2006 年 开始 ， 我 与 EMC 中 国 研究 院 (ELC) 的 同事 一 起 工作 、 合 作 ， 深 深 地 被 ELC 的 研究 员 们 的 踏实 、 专 业 与 聪 笑 所 打动 。 这 八 年 是 云 计 算 和 软件 定义 数据 中 心 从 无 到 有 、 从 稚嫩 到 完善 的 一 个 激动 


信心 的 过 程 ， 也 是 EMC 中 国 研 究 院 从 无 到 有 、 不 断 发 展 、 日 益 成 熟 的 过 程 。 
我 相信 对 所 有 前 瞻 性 的 正在 迈 入 云 移 动 时 代 的 企业 IT 部 门 来 说 ， 这 是 一 本 有 “干货 ”的 好 书 ; 对 业界 与 学 界 研究 云 计算 与 数据 中 心 架构 的 专家 、 学 者 、 学 生来 说 ， 也 是 一 本 有 参考 价值 的 好 书 。 
Charles Fan 


VMware 高 级 副 总 裁 ，EMC 中 国 卓 越 研发 集团 创始 人 


最 好 的 时 代 ， 也 是 一 个 最 坏 的 时 代 ”。 一 方面 ， Amazon、Google 和 层出不穷 的 初创 公司 能 轻而易举 地 从 资本 市 场 拿 到 源源 不 断 的 投资 ， 似 乎 根本 不 用 担心 成 


对 于 IT 设备 和 服务 厂商 来 说 ，“ 这 是 一 个 最 x 

本 压力 私利 预期 ， 另 一 方面 ，IBM、HP 等 传统 IT 巨头 不 得 不 焦头烂额 地 应 对 业绩 的 压力 、 对 发 展 前 景 的 质疑 ， 希 望 通过 转型 继续 在 企业 IT 市 场 生存 下 来 。 外 行人 看 来 ， 还 不 是 做 着 一 样 的 生意 吗 ? 怎么 前 

两 年 风 生 水 起 的 大 公司 ， 这 人 么 快 就 裁 的 裁 、 撤 的 撤 ， 纷 纷 转型 自救 了 ? 俗话 说 得 好 : “形势 比 人 强 ”。 任 由 你 是 业界 的 “ 巨 无 霸 ”， 也 抵挡 不 住 时 代 的 大 潮 。 这 一 波 拍 过 来 的 浪潮 无 疑 就 是 第 三 平台 。 在 第 

三 平台 的 大 浪 中 ， 移 动 应 用 、 社 交 应 用 、 大 数据 应 用 是 冒 头 的 浪 尖 ， 而 提供 动力 的 是 云 计 算 。 

作为 第 三 平台 的 支柱 ， 云 计算 吸引 了 IT 厂商 最 多 的 资源 。 因 为 大 家 都 对 第 二 平台 时 代 Windows 操 作 系统 +lIntel CPU (简称 Wintel) 的 联盟 记忆 犹 新 ， 谁 占据 了 基础 架构 平台 ， 谁 束 能 主宰 一 个 时 代 。 在 
也 没有 历史 包容 ， 他 们 希望 能 让 用 户 一 步 到 位 ， 直 接 上 公有 云 ; 而 传统 IT 厂 商 则 多 立足 于 现 有 的 产品 线 ， 希 望 


个 问题 上 上， 传统 IT 厂商 和 互联 网 背景 
等 。 硬 件 的 更 新 换代 需要 经 年 累 月 的 时 间 ， 通 常 很 难 满足 快速 发 展 的 业务 需求 ， 软 件 定 义 才 是 现实 可 行 的 出 路 。 这 也 是 为 什么 软件 定义 数据 中 心 迅速 成 为 IT 产业 的 热门 天 键 词 的 原因 。 


这 的 IT 服务 商 是 有 重大 分 歧 的 。 互 联网 公司 没有 老 本 可 吃 
能 让 用 户 实现 从 On-premise (IT 的 本 地 运营 ) 到 off-premise (异地 运营 ， 如 IDC) 到 私有 云 、 混 合 云 的 过 渡 。 然 而 无 论 是 哪 种 云 ， 都 会 碰 到 一 系列 共同 的 问题 : 硬件 资源 利用 率 、 扩 展 性 、 自 动 化 管理 


本 书 呈 现 了 EMC 中 国 研 究 院 在 这 一 领域 多 年 的 研究 成 果 ， 并 在 此 基础 上 上 总结 梳理 出 软件 定义 数据 中 心 的 发 展 历程 和 未 来 方向 。 在 内 容 组 织 上 ， 全 书 分 为 四 个 部 分 : 第 一 部 分 是 总 体 介绍 ， 试 图 回答 一 些 
关于 软件 定义 数据 中 心 的 基本 问题 ， 告 诉 读 者 “什么 是 软件 定义 数据 中 心 ”、“ 为 什么 需要 软件 定义 ”; 第 二 部 分 深入 介绍 了 软件 定义 数据 中 心 的 关键 技术 ， 涵 盖 了 计算 、 存 储 、 网 络 、 资 源 管理 和 调度 、 
安全 和 高 可 用 性 ; 第 三 部 分 在 了 解 了 关键 技术 的 基础 上 ， 向 读者 展示 了 软件 定义 数据 中 心 可 以 提供 的 一 些 应 用 场景 ， 第 四 部 分 选取 了 两 个 软件 定义 数据 中 心 的 实例 ， 一 个 是 面向 公有 云 的 AWS， 另 一 个 是 
向 流 媒体 的 PPTV， 希 望 能 让 读者 更 有 临场 感 ， 能 看 一 看 现在 业界 的 “大 拿 们 ”是 怎么 “ 玩 ” 的 。 


在 本 书 的 编写 过 程 中 ， 我 们 得 到 了 Pivotal 公 司 技术 总 监 Ray Feng 先 生 、 我 们 的 前 EMC 同 事 的 大 力 支持 ，Ray 对 第 三 平台 的 精辟 论述 也 出 现在 了 本 书 第 1 章 。 同 时 感谢 PPTV 的 特约 编 委 们 、Ricky 的 前 微 
软 同事 们 、 以 PPTV 研 发 副 总 裁 Bill Huang 为 领导 的 研发 团队 的 同事 们 ， 他 们 提供 了 大 量 第 一 手 资料 ， 并 共同 编写 了 一 章 大 型 实例 。 此 外 ， 还 要 感谢 EMC 中 国 研 发 集团 总 经 理 Wei Liu 和 EMC 高 级 总 监 Xiaoye 
Jiang 在 本 书 编写 的 过 程 中 给 予 的 大 力 支 持 。 最 后 ， 我 们 衷心 感谢 在 本 书 的 撰写 和 出 版 过 程 中 对 我 们 给 予 巨大 帮助 的 机 械 工业 出 版 社 华章 公司 的 编辑 们 ， 没 有 她 们 的 平 勤 工作 和 耐心 配合 ， 这 本 书 不 会 成 为 现 
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3k. 
由 于 时 间 有 限 ， 本 书 的 内 容 难 免 存 在 错漏 之 处 ， 还 请 各 位 读者 和 专家 不 音 赐教 。 
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第 1 章 ”基本 概念 


软件 定义 数据 中 心 (Softwares Defined Data Center, SDDC) 是 个 新 概念 。 新 到 什么 程度 呢 ? 2012 年 以 前 还 没有 人 系统 阐述 它 。 随 着 软件 定义 计算 、 软 件 定 义 存储 、 软 件 定义 网 络 等 一 系列 “软件 
定义 ”新 技术 的 造 勃 发 展 ， 已 经 有 几 十 年 发 展 历史 的 数据 中 心眼 看 着 将 要 迎 来 另 一 场 深刻 的 变革 。 原 有 的 设备 还 可 以 继续 运转 ， 但 是 管理 员 不 再 需要 频繁 出 入 龙 鸣 的 机 房 去 照看 它们 ;网络 不 需要 重新 连 线 
也 可 以 被 划分 成 完全 隔离 的 区 域 ， 并 且 不 用 担心 |P 地 址 之 间 会 发 生 冲突 ; 在 数据 中 心 部 署 负载 均衡 、 备 份 恢 复 、 数 据 库 不 再 需要 变动 硬件 ， 也 不 再 需要 动 加 几 天 的 部 署 测试 ， 管 理 员 只 需 点 几 下 鼠标 ， 几 秘 
钟 就 能 完成 ; 资源 是 按 需 分 配 的， 再 也 不 会 有 机 器 长 年 累 月 全 速 运转 ， 而 没有 人 知道 上 面 运 行 的 是 什么 业务 ; 软件 导致 的 系统 崩溃 几乎 总 是 不 可 避免 的 ， 但 是 在 系统 管理 员 甚 全 还 没有 发 现 这 些 问题 的 时 
候 ， 它 们 已 经 被 自动 修复 了 ， 当 然 ， 所 有 的 过 程 都 被 记录 了 下 来 ……… 


在 机 房 里 汗 流 渎 背 地 摆弄 过 服务 器 的 网 线 、 光 纤 线 、 串 口 线 和 各 种 按钮 的 系统 管理 员 看 到 这 种 情景 会 是 什么 心情 ?回忆 起 往日 给 上 百 台 服 务 器 装 系统 、 打 补丁 时 手忙脚乱 的 画面 ， 如 今 都 已 经 成 了 过 眼 
云烟 ， 不 免 有 些 翡 喜 交 加 。 不 管 是 翡 是 喜 ， 这 些 事情 都 正在 发 生 。 也 许 你 所 接触 到 的 一 些 计算 环境 已 经 开始 大 规模 应 用 计算 虚拟 化 ， 但 是 还 在 使 用 传统 的 以 太 网 和 基于 IP 的 网 络 划 分 ;也许 有 人 已 经 将 存储 
资源 全 部 抽象 成 了 块 存储 、 文 件 存储 和 对 象 存储 ， 但 是 还 需要 大 量 的 手工 配置 去 设置 一 个 备份 服务 .….. 这 不 是 一 场 风 暴 ， 原 有 的 技术 和 架构 不 会 在 一 夜 之 间 被 挫 毁 ;这 也 不 是 海底 火山 喷发 ， 信 息 孤岛 不 会 转 
眼 间 就 消失 。SDDC 所 涉及 的 概念 、 技 术 、 架 构 、 规 范 都 在 迅速 友 展 ， 但 又 并 不 同步 。 我 们 要 展示 给 大 家 的 是 一 个 日 新 月 异 的 领域 。 要 想 用 一 两 句 话 为 SDDC 下 一 个 准确 的 定义 本 身 就 不 够 严谨 。 


要 了 解 什么 是 SDDC， 至 少 要 回答 以 下 几 个 基本 的 问题 : 
SDDC 是 在 什么 基础 上 发 展 而 来 的 ? 
- 是 什么 驱动 了 SDDC 的 演化 ? (解决 了 什么 问题 ? ) 
: SDDC 是 由 什么 组 成 的 ? 
: SDDC 将 向 何 处 发 展 ? 


接 下 来 ， 我 们 先 循 着 技术 发 展 的 脉络 ， 看 看 在 SDDC 出 现 之 前 ， 已 有 的 计算 环境 是 什么 样 的 。 


1.1 数据 中 心 的 历史 


顾名思义 ， 数 据 中 心 (Data Center) 是 数据 集中 存储 、 计 算 、 交 换 的 中 心 。 从 硬件 角度 考虑 ， 它 给 人 最 直观 的 印象 就 是 计算 设备 运作 的 环境 。 因 此 ， 数 据 中 心 的 发 展 是 与 计算 机 (包括 分 化 出 的 存储 
和 网 络 设备 ) 的 发 展 紧密 联系 在 一 起 的 。 


从 第 一 台电 子 计 算 机 出 现 开始 ， 这 些 精密 的 设备 就 一 直 处 于 严密 周到 的 保护 中 。 由 于 最 早 的 电子 计算 机 几乎 都 应 用 于 军事 ， 不 对 公众 开放 服务 ， 而 且 每 台 计 算 机 所 需要 的 附属 设施 都 是 单独 设计 的 ， 
此 参考 价值 非常 有 限 。 


商用 计算 机 的 大 量 应 用 开始 于 20 世 纪 60 年 代 ， 其 中 最 具 代表 性 的 是 IBM 的 主机 (Mainframe) 系列 ,包括 700/7000 系 列 、System/360、System/370、System/390 和 今天 仍 占据 市 场 主要 份额 的 
System Z。 这 些 都 是 重 达 几 十 吨 、 占 地 数 百 平方 米 的 “大 家 伙 ”， 与 之 略 显 不 相称 的 是 这 些 机 器 缓慢 的 计算 速度 和 较 小 的 数据 存储 规模 ( 仪 指 20 世 纪 60 年 代 ， 如 今 的 System Z 已 经 非常 强大 ) 。 在 当时 ， 
拥有 这 样 一 台 计 算 机 是 非常 奢侈 的 事 ， 更 不 要 说 在 一 个 机 房 同 时 部 署 几 台 这 样 的 庞然大物 。 


图 1-1 中 ， 是 20 世 纪 60 年 代 的 一 个 主机 机 房 。 一 排 排 的 机 柜 就 是 计算 机 的 主体 ， 而 整个 篮球 馆 一 样 大 小 的 房间 就 是 当时 的 数据 中 心 。 显 而 易 见 ， 这 里 仅 有 一 人 台 计 算 机 ， 因 此 这 个 数据 中 心 是 不 需要 如 今 
概念 上 的 网 络 的 ， 也 没有 专门 的 存储 节点 。 从 管理 角度 看 ， 这 时 候 数据 中 心 的 管理 员 是 需要 精细 分 工 的 ， 有 专人 管理 电 传 打字 机 (Teletype) ， 有 专人 管理 纸 带 录入 ， 有 专人 管理 磁带 .….. 可 以 想象 ， 要 运行 
这 人 台 计 算 机 不 是 一 件 容易 的 事情 。 


图 1-1 IBM 主 机 所 在 的 机 房 


值得 一 提 的 是 ， 尽 管 很 多 与 那个 年 代 的 数据 中 心 有 关 的 东西 都 进入 博物 馆 ， 我 们 还 是 可 以 在 现在 的 计算 机 上 找到 一 些 痕迹 。 用 过 UNIX/Linux 的 读者 也 许 会 记得 系统 中 的 虚拟 终端 会 用 TTY 来 表示 ， 这 就 
来 源 于 Teletype。 


随 着 大 规模 集成 电路 的 发 展 ，20 世 纪 80 年 代 开 始 ， 大 量 相 对 廉价 的 微型 计算 机 出 现 了 。 数 据 的 存储 和 计算 呈现 一 种 分 散 的 趋势 ， 越 来 越 多 的 微型 计算 机 被 部 署 在 政府 、 公 司 、 医 院 、 学 校 .…… 绝 大 多 数 
微型 计算 机 是 互 不 联通 的 ， 信 息 的 交换 更 多 依靠 磁盘 、 磁 带 等 介质 。 到 了 90 年 代 ， 计 算 的 操作 变 得 越 来 越 复杂 ， 原 有 的 微型 计算 机 开始 扮演 客户 端的 角色 ， 而 大 型 的 任务 如 数据 库 查 询 被 迁移 到 服务 器 端 ， 
著名 的 客户 端 /服务 器 模式 开始 大 行 其 道 ， 这 直接 推动 了 数据 中 心 的 发 展 。 让 我 们 看 看 ， 在 经 过 20 世 纪 50 年 代 至 80 年 代 计 算 机 科学 理论 发 展 的 黄金 年 代 后 ， 计 算 机 工业 又 经 历 了 怎样 的 飞速 发 展 。 


- 1981 年 Hayes 出 品 了 300bps 的 Smartmodem 300， 并 发 明了 AT 命令 作为 标准 。 
. 1983 年 以 太 网 作为 IEEE 802.3 标 准 出 现 。 

: 1985 年 Intel 公 司 出 品 了 80386 处 理 器 。 

- 1986 年 IBM 公 司 在 Model 3090 中 第 一 次 应 用 了 1 兆 主 频 的 芯片 。 

: 1987 年 Sun 公 司 出 品 了 第 一 块 SPARC 芯 片 。 

- 1989 年 SQL Setvet 发 布 。 

: 1991 4E Linux E 5 X45. 

: 1994 4F- Compaq Ze 8] H 3e T R — ILR AIRF B ProLiant. 


数据 中 心 再 也 不 是 只 有 一 台 计 算 机 ， 机 架 式 服务 器 的 出 现 ， 更 加 大 幅度 提升 了 数据 中 心中 服务 器 的 密度 。 随 着 越 来 越 多 的 计算 机 被 堆 革 在 一 起 ， 机 器 之 间 的 互联 就 显得 日 益 重 要 起 来 。 无 论 是 局 域 网 还 
是 广域网 ， 网 络 技术 都 在 这 一 时 期 取得 了 飞速 的 发 展 ， 为 互联 网 时 代打 下 了 坚实 的 基础 。 数 据 中 心里 的 网 络 设备 也 从 计算 机 中 分 化 出 来 ， 不 再 是 “用 于 数据 交换 的 计算 机 ”。 软 件 方面 ，UNIX 仍 然 是 数据 中 
心 的 主流 操作 系统 ， 但 是 Linux 已 经 出 现 ， 并 且 在 这 之 后 的 岁月 里 展现 出 了 惊人 的 生命 


进入 21 世 纪 ， 伴 随 着 互联 网 的 出 现 和 被 公众 迅速 接受 ,数据 中 心 从 技术 发 展 到 运行 规模 ， 都 经 历 了 前 所 未 有 的 发 展 高 潮 。 几 乎 所 有 的 公司 都 需要 高 速 的 网 络 连接 与 Internet 相 连 ， 而 且 公 司 的 运营 对 于 
IT 设施 的 依赖 性 越 来 越 高 ， 需 要 不 间断 运行 的 服务 器 支撑 公司 的 业务 。 试 想 ， 如 果 一 家 公司 的 电子 邮件 系统 处 于 时 断 时 续 的 状态 ， 如 何 保证 公司 的 正常 运作 ?然而 ， 每 家 公司 都 自行 构建 这 样 一 套 基础 架构 
实在 太 不 划算 ， 也 没有 这 个 必要 。 于 是 ，IDC (Internet Data Center) 就 应 运 而 生 了 。 这 是 第 一 次 出 现 以 运营 数据 中 心 为 主要 业务 的 公司 。 由 于 竞争 的 需要 ，1DC 竞 相 采 用 最 新 的 计算 机 ， 采 购 最 快速 的 网 
络 连 接 设备 和 存储 设备 ， 应 用 最 新 的 IT 管 理 软 件 和 管理 流程 ， 力 图 使 自己 的 数据 中 心 能 吸引 更 多 的 互联 网 用 户 。 不 仅仅 是 IT 技 术 ， 作 为 专业 的 数据 中 心 运营 商 ，IDC 为 了 提高 整个 系统 的 可 靠 性 、 可 用 性 和 安 
全 性 ， 对 建筑 规范 、 电 源 、 空 调 等 都 做 了 比 以 往 更 详尽 的 设计 。 


一 个 普通 的 IDC 可 以 有 数 干 台 服务 器 、 几 个 TB 的 网 络 带宽 、 若 干 PB 的 存储 。99.99% 的 初级 程序 员 和 系统 分 析 员 都 会 觉得 这 已 经 够 大 了 ， 只 要 把 应 用 不 断 部 署 进 去 就 可 以 了 。 而 且 ， 服 务 器 、 存 储 、 网 络 
带宽 都 还 有 扩充 的 余地 ，1DC 就 像 汪 洋 大 海 一 样 ， 永 远 不 会 被 用 尽 。 区 别 只 是 需要 把 应 用 部 署 在 哪个 DC 中 。 这 就 像 当 时 设计 |Pv4 协 议 时 对 待 | 地址 的 态度 : 1P 地 址 太 多 了 ， 足 够 了 。1Pv4 的 主 地 址 池 好 歹 分 
了 3(0 年 才 分 完 ， 而 孤立 的 IDC 还 没有 撑 过 10 年 就 已 经 进入 了 互 连 互通 的 时 期 。 没 办 法 ， 总 有 那么 些 新 东西 是 我 们 预见 不 到 的 。1Pv4 的 地 址 会 迅速 枯竭 ， 主 要 是 因为 设计 者 没有 预见 到 互联 网 用 户 的 激增 和 各 
种 移动 设备 的 出 现 。 对 于 1DC 来 说 ， 推 动 互 连 互通 的 主要 是 这 样 一 些 需 3 


1) 跨 地 域 的 机 构 需 要 就 近 访 问 数 据 和 计算 能 力 。 例 如 ， 许 多 跨国 公司 在 中 国 的 研发 中 心 ， 几 干 人 不 可 能 都 远程 登录 到 总 部 的 数据 中 心 工 作 ， 浪 费 昂 贵 的 国际 流量 还 在 其 次 ,关键 是 用 户 体 验 达 不 到 要 
求 。 这 些 研发 中 心 都 有 本 地 的 数据 中 心 ， 并 且 与 公司 位 于 其 他 国家 的 数据 中 心 有 统 一 的 网 络 规划 、 管 理 流程 。 


2) 越 来 越 大 的 分 布 式 应 用 。 例 如 ， 作 为 谷歌 存储 系统 核心 的 GFS， 运 行 在 几乎 所 有 的 服务 器 中 。 较 大 的 GFS 跨 数 干 台 机 器 ， 看 起 来 还 可 以 勉强 “ 塞 ” 进 某 个 数据 中 心 ， 可 惜 这 样 的 大 文件 系统 不 是 一 个 


3) 云 计 算 的 出 现 。 与 前 两 个 不 同 ， 云 计算 的 出 现 是 推动 IDC 向 CDC (Cloud Data Center) 发 展 的 最 关键 因素 。 提 到 云 计 算 ， 就 不 能 不 提 亚 马 逊 的 AWS (Amazon Web Service) 。 亚 马 逊 在 以 下 地 区 
都 有 大 型 数据 中 心 ， 以 支撑 AWS 的 服务 : 


- 爱尔兰 的 都 柏林 

- 新 加 坡 的 新 加 坡 市 

- 美国 的 加 利 福 尼 亚 州 帕 罗 奥 图 (Palo Alto) 
: 美国 的 弗吉尼亚 州 阿 什 本 (Ashburn) 

日 本 的 东京 

` 澳大利亚 的 悉尼 


由 于 这 些 因素 的 推动 ， 数 据 中 心 之 间 的 联系 变 得 更 紧密 。 不 同 数据 中 心 的 用 户 不 会 觉得 自己 是 在 一 个 孤立 的 环境 中 ， 因 为 跨 数 据 中 心 的 计算 资源 、 存 储 空间 、 网 络 带 宽 都 可 以 共享 ， 管 理 流程 也 很 相 
近 。 这 让 所 有 用 户 感觉 自己 工作 在 一 个 巨大 、 统 一 的 数据 中 心中 。 多 么 巨大 的 应 用 也 不 再 是 问题 。 需 要 更 多 服务 器 ”扩展 到 下 一 个 空闲 的 数据 中 心 吧 。 不 仅仅 需要 物理 机 器 ， 而 是 需要 把 虚拟 机 在 全 球 范围 
内 迁移 ”这 也 能 办 到 ， 亚 马 逊 已 经 在 这 么 做 了 。 


回 过 头 看 看 数据 中 心 的 发 展 历 史 ， 如 图 1-2 所 示 ， 数 据 中 心中 机 器 的 数量 从 一 台 到 几 和 干 几 万 台 ， 似 乎 是 朝 着 不 断 分 散 的 目标 发 展 。 但 是 从 管理 员 和 用 户 的 角度 看 ， 访 问 大 型 机 上 的 计算 资源 是 从 一 个 大 的 
资源 池 中 分 出 一 块 ， 访 问 云 数据 中 心中 的 计算 资源 也 是 如 此 。 用 户 体 验 经 历 了 集中 一 一 分 散 一 一 集中 的 发 展 过程 。 新 的 集中 访问 资源 的 模式 和 资源 的 质量 都 已 经 远 远 超 越 了 大 型 机 时 代 。 从 一 台 机 器 独占 巨 
大 的 机 房 ， 到 少量 计算 机 同时 各 自 提供 服务 ， 表 到 无 数 的 机 器 可 以 高 速 互 通信 息 、 同 时 提供 服务 ， 可 以 分 配 的 资源 被 越 分 越 细 ， 数 据 中 心 的 密度 也 越 来 越 高 。 有 趣 的 是 ， 管 理 数据 中 心 的 人 员 并 没有 增长 得 
这 么 快 。 网 络 的 发 展 让 管理 员 可 以 随时 访问 数据 中 心中 任何 一 台 机 器 ，IT 管 理 软 件 帮助 管理 员 可 以 轻松 管理 数 干 台 机 器 。 如 果 管 理 员 不 借助 专业 IT 管 理 软 件 ， 一 个 人 管理 几 十 台 机 器 就 已 经 手 忙 脚 配 了 。 从 
这 个 角度 看 ， 传 统 的 数据 中 心 是 “软件 管理 的 数据 中 心 ”。 
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图 1-2 AEP CHAE 


1.2 ”继续 友 展 的 推动 力 


的 确 ，“ 软 件 管理 的 数据 中 心 ” 已 经 发 展 得 非常 完善 了 ， 仪 就 可 管理 的 硬件 数量 而 言 并 没有 迅速 发 展 的 必要 ， 场 地 维护 、 电 力 、 空 调 等 基础 设施 的 管理 也 成 熟 到 足够 在 一 个 数据 中 心 容纳 数 万 台 机 器 。 
例如 雅虎 (Yahoo! ) 在 美国 纽约 州 建设 的 数据 中 心 拥有 约 2800 个 机 柜 ， 足 以 容纳 5 万 台 到 10 万 台 服 务 器 同时 工作 ，DCIM (Data Center Infrastructure Management) 系统 会 监控 每 一 台 服 务 器 的 运行 
状态 ， 确 保 整 个 数据 中 心 没有 一 台 机 器 会 热 得 烧 起 来 (服务 器 自身 也 有 温度 控制 系统 ， 这 种 情况 很 少 发 生 ) ， 确 保 UPS 在 风暴 来 临 而 突然 断 电 的 时 候 能 正确 切换 到 工作 负载 上 。 虽 然 亚 马 逊 的 数据 中 心 在 
2012 年 出 过 一 点 小 差错 ， 但 是 绝 大 部 分 时 间 里 ， 这 些 系统 是 工作 得 很 好 的 。 


照 理 说 ， 数 据 中 心 的 管理 人 员 应 该 比 以 往 任何 时 候 都 要 轻松 。 如 果 没 有 什么 需要 继续 改进 ， 那 就 按照 现在 的 模式 ， 再 多 建 几 座 数据 中 心 ， 就 能 解决 所 有 的 问题 了 。 这 对 于 数据 中 心 基础 设施 的 管理 员 来 
说 应 该 是 好 事 ， 而 系统 管理 员 却 并 不 这 么 想 。 让 我 们 来 看 看 有 什么 样 的 麻烦 困扰 着 系统 管理 员 。 


1. 机 器 实在 太 多 


如 果 只 是 把 机 器 推 在 机 房 里 还 好 ， 可 是 想 想 看 给 1000 台 机 器 配置 好 操作 系统 、 配 置 好 网 络 连 接 、 登 记 在 管理 系统 内 、 划 分 一 部 分 给 某 个 申请 用 户 使 用 ， 或 许 还 需要 为 该 用 户 配置 一 部 分 软件 …… 这 看 起 
来 实在 是 劳动 密集 型 任务 。 想 想 谷 歌 吧 ， 它 经 常 需要 部 署 一 个 数 干 节点 的 GFS 环 境 给 新 的 应 用 ， 那 么 是 不 是 需要 一 支 训 练 有 素 、 数 量 庞大 的 IT 劳务 大 军 ? 


2. 机 器 的 利用 率 太 低 


Mozilla 数 据 中 心 的 数据 让 人 有 些 担心 。 据 称 ，Mozilla 数 据 中 心 的 服务 器 CPU 占 用 率 在 6%~10% 之 间 。 也 许 这 与 应 用 的 类 型 有 关 ， 例 如 在 提供 分 布 式 文件 系统 的 机 器 上 CPU 就 很 空 几 ， 与 之 对 应 的 是 内 
存 和 I/O 操 作 很 繁 忆 。 如 果 这 只 是 个 例 ， 就 完全 没有 必要 担心 ， 但 服务 器 利用 率 低下 恰恰 是 一 个 普遍 存在 的 问题 。 一 个 造价 昂贵 的 数据 中 心 再 加 上 数额 巨大 的 电费 账单 ， 最 后 却 遗憾 地 发 现 只 有 不 到 10% 的 资 
源 被 合理 利用 了 ， 剩 下 超过 90% 是 用 来 制造 热量 的 。 别 志 了 ， 散 热 还 需要 花 一 大 笔 钱 。 


3. 应 用 迁移 太 困 难 


只 要 摩尔 定律 还 在 起 作用 ， 硬 件 的 升级 换代 就 还 是 那么 快 。 对 于 数据 中 心 来 说 ， 每 隔 一 段 时 间 就 更 新 硬件 是 必须 的 。 困 难 的 不 是 把 服务 器 下 架 ， 交 给 回收 商 ， 而 是 把 新 的 服务 器 上 架 ， 按 以 前 一 样 配 置 
网 络 和 存储 ， 并 把 原 有 的 应 用 恢复 起 来 。 新 的 操作 系统 可 能 有 驱动 的 问题 ， 网 络 和 存储 可 能 无 法 正常 连接 ， 应 用 在 新 环境 中 不 能 运行 …. 最 后 很 可 能 不 得 不 请 工程 师 到 现场 调试 ， 追 踪 问 题 到 底 是 出 在 硬件 、 
软件 上 ， 还 是 哪个 配置 选项 没有 选中 。 


4. 存 储 需求 增长 得 太 快 


2012 年 全 球 产 生 的 数据 总 量 约 为 2.7ZB (1ZB=1 万 亿 GB) ， 相 比 2011 年 增长 了 48%。 即 使 不 考虑 为 了 存储 这 些 数据 需要 配备 的 空 闪 存储 ， 也 意味 着 数据 中 心 不 得 不 在 一 年 内 增加 50% 左 右 的 存储 容量 。 
用 不 了 几 年 ， 数 据 中 心 就 会 堆 满 了 各 种 厂家 、 各 种 接口 的 存储 设备 。 管 理 它 们 需要 不 同 的 管理 软件 ， 而 且 常 党 互相 不 兼容 。 人 存储 设备 的 更 新 比 服务 器 更 关键 ， 因 为 所 存储 的 数据 可 能 是 我 们 每 个 人 的 银行 账 
号 、 余 额 、 交 易 记录 。 旧 的 设备 不 能 随便 换 ， 新 的 设备 还 在 每 天 涌 进 来 。 学 习 存 储 管理 软件 的 速度 也 许 还 赶不上 存储 设备 的 增长 。 


问题 绝 不 仅仅 只 有 这 么 几 点 ， 但 是 我 们 已 经 可 以 从 这 些 例子 得 到 一 些 启示 。 像 以 往 数据 中 心 的 友 展 一 样 ， 首 先是 应 用 的 发 展 推动 了 数据 中 心 的 友 展 。 之 前 提 到 的 超大 型 分 布 式 系 统 和 云 计算 服务 平台 都 
是 类 似 的 应 用 。 我 们 在 后 面 还 会 介绍 更 多 这 样 的 应 用 场景 。 这 些 应 用 有 一 个 共同 的 特点 ， 没 有 任何 悬念 ， 它 们 需要 比 以 往 更 多 的 计算 、 人 存储 、 网 络 资源 ， 而 且 需 要 灵活 、 迅 速 的 部 署 和 管理 。 为 了 满足 如 此 
苛刻 的 要 求 ， 仪 仅 增 加 机 器 已 经 无 济 于 事 了 。 与 此 同时 ， 人 们 “终于 ”发 现 数据 中 心 的 服务 器 利用 率 竟 然 只 有 不 到 10%。 但 是 应 用 迁移 却 如 此 困难 ， 明 知 有 些 机 器 在 99.9% 的 时 间 都 空闲， 却 不 得 不 为 了 那 
0.1% 的 峰值 负荷 而 让 它们 一 直 空 转 着 。 如 果 说 服务 器 只 是 有 些 浪费 ， 还 勉强 说 得 过 去 的 话 ， 人 存储 就 更 让 人 头疼 了 。 数 据 产 生 的 速度 越 来 越 快 ， 人 存储 设备 要 么 不 够 ， 要 么 实在 太 多 无 法 全 面 管理 .…… 


1.3 ”软件 定义 的 必要 性 


正 是 因为 有 了 上 述 挑 战 ， 无 论 是 数据 中 心 的 管理 员 ， 还 是 应 用 系统 的 开发 人 员 ， 或 是 最 终 用 户 ， 都 意识 到 将 数据 中 心 的 各 个 组 成 部 分 从 硬件 中 抽象 出 来 、 集 中 协调 与 管理 、 统 一 提供 服务 的 重要 性 。 如 
图 1-3 所 示 ， 在 传统 的 数据 中 心中 ， 如 果 我 们 需要 部 署 一 套 业 务 系统 ， 例 如 文件 及 打印 服务 ， 就 要 为 该 业务 划分 存储 空间 ， 分 配 运 行文 件 及 打印 服务 的 服务 器 ， 配 置 好 服务 器 与 存储 的 网 络 。 


图 1-3 ”传统 数据 中 心中 的 资源 


这 需要 多 长 时 间 呢 ?这 可 没准 。 不 同 的 计算 中 心 都 有 各 自 的 管理 流程 ， 大 多 数 情 况 下 都 要 先 向 IT 管 理 员 提交 一 个 请 求 ， 注 明 需 要 哪些 资源 。|T 管 理 员 拿 到 这 个 请 求 之 后 ， 会 在 现 有 的 资源 列表 中 寻找 适 
合 的 服务 器 、 存 储 、 网 络 资源 。 假 设 运气 很 好 ， 不 需要 额外 采购 就 能 满足 文件 服务 器 的 要 求 ， 最 快 也 需要 1~ 2 天 的 时 间 。 如 果 碰 到 现 有 的 资源 数量 和 质量 无 法 满足 需求 ， 那 就 继续 等 待 吧 ， 询 价 、 采 购 、 发 


货 、 配 置 上 线 .…… 这 么 折腾 下 来 ， 不 经 过 十 天 半 个 月 的 等 待 ， 怕 是 根本 没 办 法 开始 部 署 业务 系统 。 对 于 一 个 文件 及 打印 服务 来 说， 等 一 下 也 无 可 厚 非 ， 实 在 不 行 可 以 把 数据 暂时 存储 在 U 盘 里 ， 再 凑合 使 用 旧 
的 打印 服务 器 。 可 是 如 果 一 家 公司 的 核心 业务 系统 紧急 需要 资源 怎么 办 ? 2012 年 开始 在 国内 炒 得 火热 的 双 十 一 促销 是 各 个 电 商 平台 的 整体 较量 ， 对 它们 来 说 都 是 重头 戏 。 可 万 事 开 头 难 ， 就 在 2012 年 11 月 

11 日 这 一 天 ， 淘 宝 和 京东 的 后 台 系 统 从 飞速 变 成 了 “ 龟 速 ”。 京 东 的 CEO 刘 强 东 微 博 回应 : 紧急 采购 服务 器 扩容 ! 先 不 说 业务 系统 的 设计 是 否 支持 这 样 迅速 的 扩容 ， 单 就 IT 资源 的 管理 角度 ， 如 果 这 样 的 业 
务 需要 等 上 几 天 ， 那 双 十 一 大 战 是 必然 要 落 败 了 。 公司 高 层 领导 当然 可 以 省 却 许多 繁琐 的 流程 ， 但 是 服务 器 也 不 可 能 “《” 到 京东 的 机 房 来 ， 无 论 如 何 都 已 太 慢 。 


从 图 1-3 还 可 以 看 到 ， 如 果 有 6 个 业务 系统 ， 就 需要 6 套 服务 器 ， 这 很 合理 。 在 生产 环境 的 服务 器 上 再 部 署 、 调 试 其 他 业务 只 会 带 来 更 多 的 麻烦 ， 而 且 实 际 上 ， 文 件 打印 这 些 服务 需要 的 计算 能 力 很 弱 ， 
数据 库 系统 需要 很 大 的 内 存 和 非常 好 的 I/O 能 力 ， 高 性 能 计算 需要 强大 的 CPU。 显 而 易 见 ， 为 不 同 的 业务 采购 不 同 配 置 的 服务 器 是 必需 的 ， 而 且 对 于 各 项 性 能 的 要 求 几 乎 完全 来 自 于 估计 ， 没有 人 会 确切 地 知 
道 是 否 需要 256GB 的 内 存 而 不 是 128GB。 因 此 ，|T 管 理 员 需要 面 对 的 就 是 干 奇 百 怪 的 配置 表 和 永远 无 法 清楚 描述 的 性 能 需求 。 因 此 IT 管 理 员 在 采购 硬件 的 时 候 自 然而 然 会 采取 最 安全 的 策略 : 尽量 买 最 好 
的 。 这 就 出 现 了 上 文 提 到 过 的 问题 : 服务 器 的 利用 率 低 得 惊人 。 


高 端的 存储 可 以 较 好 地 实现 存储 资源 池 ， 并 且 理 论 上 可 以 同时 支持 所 有 的 应 用 。 但 是 把 EMC 的 高 端 存 储 用 来 支持 打印 服务 器 ,似乎 显得 太 奢 侈 了 。 实 际 情况 下 ， 这 些 业务 系统 会 至 少 共享 2~3 种 存储 设 
备 。 每 个 子 系统 都 使 用 各 自 的 子 网 ， 但 是 一 个 网 段 分 给 了 某 项 业务 ， 即 使 并 不 会 被 用 完 ， 其 他 系统 也 不 能 再 用 了 。 


乎 好 虚拟 化 技术 重新 回 到 了 人 们 的 视野 当中 。 在 计算 机 发 展 的 早期 ， 虚 拟 化 技术 其 实 就 已 经 出 现 了 ， 当 时 是 为 了 能 够 充分 利用 昂贵 的 计算 机 。 数 十 年 后 ， 虚 拟 化 技术 再 一 次 变 成 人 们 重点 天 注 的 对 象 ， 
这 依然 跟 提 高 资源 的 利用 效率 有 密 不 可 分 的 关系 。 而 且 这 次 虚拟 化 技术 不 仅 在 计算 节点 上 被 广泛 应 用 ， 相 同 的 概念 也 被 很 好 地 复制 到 了 人 存储、 网 络 、 安 全 等 与 计算 相关 的 方方面面 。 虚 拟 化 的 本 质 是 将 一 种 
资源 或 能 力 以 软件 的 形式 从 具体 的 设备 中 抽象 出 来 ， 并 作为 服务 提供 给 用 户 。 当 这 种 思想 应 用 到 计算 节点 ， 计 算 本 身 就 是 一 种 资源 ， 被 以 软件 的 形式 一 一 各 种 虚拟 机 从 物理 机 器 中 抽象 出 来 一 一 按 需 分 配给 
用 户 使 用 。 虚 拟 化 思想 应 用 于 存储 时 ， 数 据 的 保存 和 读 写 是 一 种 资源 ， 而 对 数据 的 备份 、 迁 移 、 优 化 等 控制 功能 是 另 一 种 资源 ， 这 些 资源 被 各 种 软件 抽象 出 来 ， 通 过 编程 接口 (API) 或 用 户 界面 提供 给 用 户 
使 用 。 网 络 的 虚拟 化 也 是 这 样 ， 数 据 传输 的 能 力作 为 一 种 资源 ， 被 网 络 虚 拟 化 软件 划分 成 互相 隔离 的 虚拟 网 络 ， 提 供 如 OpenFlow 这 样 的 通用 接口 给 用 户 使 用 。 当 主要 的 基础 资源 如 计算 、 和 存储、 网络 被 充 
分 虚拟 化 之 后 ， 数 据 中 心 的 逻辑 结构 将 如 图 1-4 所 示 。 
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图 1-4 虚拟 化 的 计算 、 存 储 、 网 络 


资源 的 可 用 性 是 原生 的 ， 是 买 来 这 些 设 备 时 就 已 经 具备 的 。 但 是 如 何 发 挥 其 使 用 效果 ， 却 要 靠 创 新 的 思路 和 方法 。 我 们 可 以 看 到 ， 当 服务 器 虚拟 化 之 后 ， 计 算 能 力 就 可 以 真正 做 到 “ 按 需 分 配 ”， 而 不 
是 必须 给 每 种 服务 配置 物理 的 机 器 。 过 去 的 IT 管理 员 当 然 也 希望 能 够 做 到 “ 按 需 ”而 不 是 “ 按 业 务 ” 分 配 ， 但 是 没有 虚拟 化 技术 ， 没 有 人 会 愿意 冒 风 险 把 可 能 互相 影响 的 系统 放 在 同一 台 服 务 器 上 。 存 储 也 
被 虚拟 化 了 。 用 户 不 用 再 关心 买 了 什么 磁盘 阵列 ， 每 个 阵列 到 底 能 够 承载 多 少 业务 ， 因 为 他 们 看 到 的 将 是 一 个 统一 管理 的 资源 池 ， 资 源 池 中 的 存储 按照 容量 、 响 应 时 间 、 吞 吐 能 力 、 可 靠 性 等 指标 被 分 成 了 
若干 个 等 级 。 系 统管 理 员 可 以 “ 按 需 ”从 各 个 资源 池 中 分 配 和 回收 资源 。 虚 拟 的 网 络 可 以 “ 按 需 ” 增 减 和 配置 ， 而 不 需要 动手 配置 网 络 设备 和 连 线 。 能 做 到 这 一 步 ， 至 少 就 能 够 解决 以 下 问题 : 


* 资源 的 利用 效率 低下 ， 不 能 充分 利用 硬件 的 能 

“ 资源 的 分 配 缺 乏 弹 性 ， 不 能 根据 运行 情况 调整 投入 。 

. 在 提供 基础 设施 服务 时 ， 必 须 考虑 不 同 硬件 的 性 能 。 

需要 改变 配置 时 ， 不 得 不 重新 连 线 和 做 硬件 配置 的 调整 。 

需要 特别 注意 的 是 ， 在 虚拟 化 这 一 概念 中 ， 利 用 软件 来 抽象 可 用 的 资源 这 一 点 尤为 重要 ， 因 为 这 样 才能 实现 资源 与 具体 硬件 的 分 离 (Decouple) ， 从 而 使 进一步 发 展 数据 中 心 成 为 可 能 。 这 也 是 “软件 
定义 数据 中 心 ” 的 由 来 。 

当主 要 的 资源 都 已 经 虚拟 化 ，“ 软 件 定 义 ”还 并 没有 实现 ， 这 是 因为 虚拟 化 在 解决 大 量 现 有 问题 的 同时 ， 也 带 来 一 些 新 的 挑战 。 

首先 ， 虚 拟 化 让 资源 得 以 按 需 分 配 和 回收 ， 这 使 得 资源 的 管理 更 加 精细 。 不 仅 如 此 ， 管 理 的 对 象 也 发 生 了 变化 。 传 统 的 数据 中 心 资 源 管理 以 硬件 为 核心 ， 所 有 的 系统 和 流程 根据 硬件 使 用 的 生命 周期 来 


制定 。 当 资源 虚拟 化 之 后 ， 系 统管 理 员 不 仅 需要 管理 原 有 的 硬件 环境 ， 而 且 新 增加 了 对 虚拟 对 象 的 管理 。 虚 拟 对 象 的 管理 兼 有 软件 和 硬件 的 管理 特性 。 从 用 户 的 使 用 体验 来 说 ， 虚 拟 对 象 更 像 硬件 设备 ， 例 
如 服务 器 、 磁 盘 、 专 有 的 网 络 等 ;而 从 具体 的 实现 形式 和 收费 来 说 ， 虚 拟 对 象 却 是 在 软件 的 学 畴 里 。 为 了 适应 这 种 改变 ， 资 源 管理 要 能 够 将 虚拟 对 象 与 硬件 环境 甚至 更 上 层 的 业务 结合 起 来 ， 统 一 管理 。 


虚拟 化 令 资源 的 划分 更 加 细致 ， 不 仅 带 来 了 管理 方式 上 的 挑战 ， 被 管理 对 象 的 数量 也 上 升 了 至 少 一 个 数量 级 。 原 本 一 台 服 务 器 单独 作为 一 个 管理 单位 ， 现 在 虚拟 机 变 成 了 计算 的 基本 管理 单位 。 随 着 多 
核 技术 的 发 展 ， 如 今 非 常 普 通 的 一 台 物 理 服 务 器 可 以 有 2 个 CPU， 每 个 CPU 上 有 8 个 物理 计算 核心 (Core) ， 每 个 计算 核心 借助 超 线程 技术 可 以 运行 2 个 线程 ， 因 而 也 可 以 被 认为 是 2 个 虚拟 CPU。 因 此 ,一 
台 物 理 服 务 器 上 往往 可 以 轻松 运行 15~30 个 虚拟 机 实例 。 人 存储 的 例子 更 加 明显 。 传 统 的 存储 设备 为 物理 机 器 提供 服务 ， 假 设 每 台 机 器 分 配 2 个 LUN (逻辑 单元 号 ) 作为 块 存储 设备 ， 如 今 虚拟 化 之 后 需要 分 配 
的 LUN 也 变 成 原来 的 几 十 倍 。 不 仅 如 此 ， 因 为 存储 虚拟 化 带 来 的 资源 的 集中 管理 ， 释 放 了 许多 原来 不 能 满足 的 存储 需求 ， 因 此 跨 设备 的 人 存储 资源 分 配 也 变 成 了 现实 。 这 使 得 存储 资源 的 管理 对 象 数量 更 加 庞 
大 了 。 网 络 的 数量 恐怕 不 用 袭 述 了 。 想 想 看 为 什么 大 家 不 能 满足 于 VLAN， 而 要 转向 VxXLAN。 一 个 很 重要 的 因素 是 VLAN tag 对 虚拟 网 络 有 数量 的 限制 ，4096 个 网 络 都 已 经 不 够 了 ( 详 见 第 4 章 ) 。 要 管理 数 
量 巨 大 的 虚拟 对 象 ， 仅 仅 依 靠 一 两 张 电子 表格 是 完全 应 付 不 了 的 ， 连 传统 的 管理 软件 也 无 法 满足 要 求 。 例 如 ， 某 知名 IT 管理 软件 在 导航 栏 里 有 一 项 功能 ， 用 列表 的 方式 列 出 所 有 服务 器 的 摘要 信息 。 在 虚拟 
化 环境 中 试用 时 ， 由 于 虚拟 服务 器 数量 太 多 ， 导 致 浏览 器 无 法 响应 ,不 得 不 “ 尾 请 ”用 户 不 要 轻易 使 用 。 


虚拟 环境 带 来 的 另 一 个 挑战 是 安全 。 这 里 既 有 新 瓶装 老酒 的 经 典 问题 ， 也 有 虚拟 化 特有 的 安全 挑战 。 应 用 运行 在 虚拟 机 上 和 运行 在 物理 服务 器 上 都 会 面临 同样 的 攻击 ， 操 作 系统 和 应 用 程序 的 漏洞 依然 
需要 用 传统 的 方式 来 解决 。 好 在 如 果 某 个 应 用 在 虚拟 机 上 骨 溃 了 ， 不 会 影响 物理 服务 器 上 其 他 应 用 继续 工作 。 从 这 点 来 看 ， 虚 拟 化 确实 提高 了 计算 的 安全 性 。 虚 拟 化 的 一 个 重要 特点 是 多 用 户 可 以 共享 次 


源 ， 无 论 是 计算 、 存 储 、 网 络 ， 共 享 带 来 的 好 处 显而易见 ， 然 而 也 带 来 了 可 能 互相 影响 的 安全 隐患 。 例 如 ， 在 同一 台 物 理 服务 器 上 的 虚拟 机 真 的 完全 不 会 互相 影响 吗 ” 早 期 ， 亚 马 逊 的 AWs 就 出 现 过 某 些 用 
户 运 行 计 算 量 非 常 大 的 应 用 ， 而 导致 同一 台 物 理 机 器 上 的 其 他 虚拟 机 用 户 响应 缓慢 的 情况 。 存 储 的 安全 性 就 更 关键 了 。 如 果 你 在 一 个 虚拟 存储 卷 上 存放 了 公司 的 财务 报表 ， 即 使 你 已 经 想 尽 办 法 删除 了 数 
据 ， 你 还 是 会 担心 如 果 这 个 卷 被 分 配给 一 个 有 能 力 恢复 数据 的 人 ， 就 会 存在 安全 隐患。 


可 见 ， 仅 仅 将 资源 虚拟 化 ， 只 是 解决 问题 的 第 一 步 。 对 虚拟 对 象 的 管理 是 下 一 步 要 完成 的 任务 。 如 图 1-5 所 示 ， 新 的 资源 管理 和 安全 并 不 是 着 眼 于 物理 设备 的 ， 而 是 把 重点 放 在 管理 虚拟 对 象 上 ， 使 虚拟 
环境 能 够 真正 被 系统 管理 员 和 用 户 所 接受 。 
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图 1-5 新 的 资源 管理 与 安全 
当 虚 拟 资源 各 就 各 位 ， 管 理 员 动 动 鼠 标 就 能 够 安全 地 分 配 、 访 问 、 回 收 任何 计算 、 和 存储、 网络 资源 的 时 候 ， 数 据 中 心 就 可 以 算得 上 是 完全 被 软件 接管 了 。 可 是 这 并 不 意味 着 软件 定义 数据 中 心 已 经 能 够 
发 挥 最 大 的 作用 。 因 为 资源 虽然 已 经 虚拟 化 ， 纳 入 了 统一 管理 的 资源 池 ， 可 以 随 需 调用 ， 但 是 什么 时 候 需要 什么 样 的 资源 还 是 要 依靠 人 来 判断 ， 部 署 一 项 业务 到 底 需 要 哪些 资源 还 是 停留 在 技术 文档 的 层 
面 。 数 据 中 心 的 资源 确实 已 经 由 软件 来 定义 如 何 发 挥 作 用 ， 但 是 数据 中 心 的 运行 流程 还 没有 发 生根 本 改变 。 以 部 署 MySQL 数 据 库 为 例 ， 需 要 2 个 计算 节点 、3 个 LUN 和 1 个 虚拟 网 络 。 知 道 了 这 些 还 远 远 不 
够 ， 在 一 个 安全 有 保证 的 虚拟 化 环境 中 ， 管 理 员 要 部 署 这 样 一 个 数据 库 实 例 需 要 完成 以 下 流程 : 
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不 难 帮 现 ， 除 了 使 用 的 资源 已 经 被 虚拟 化 ， 这 套 流程 并 没有 任何 新 意 。 当 然 ， 是 否 有 新 意 并 不 重要 ， 重 要 的 是 好 用 、 能 解决 问题 。 看 起 来 这 样 的 流程 并 不 复杂 。 那 让 我 们 再 考虑 一 下 ， 仅 仪 部 署 一 个 
MySQIl 数据库 常常 不 是 最 终 的 目标 ， 要 提供 一 个 能 面向 用 户 的 应 用 ， 还 需要 更 多 的 组 件 加 入 进来 。 假 设 我 们 需要 部 署 一 个 移动 应 用 的 后 台 系 统 ， 包 括 一 个 MySQL 数 据 库 、Django 框 架 、 日 志 分 析 引 警 ， 按 
照 上 面 的 流程 ， 工 作 量 就 至 少 是 原来 的 3 倍 。 如 果 我 们 需要 为 不 同 的 用 户 部 署 1000 个 移动 应 用 的 后 台 系 统 呢 ? 

回 过 头 来 想 想 ， 既 然 资 源 都 已 经 虚拟 化 并 且 置 于 资源 池 中 ， 管 理 员 对 虚拟 资源 理应 有 更 大 的 控制 权 ， 那 么 在 部 署 虚拟 机 的 时 候 ， 自 然 可 以 在 模板 中 留 下 一 些 辅助 配置 的 “后 门 ”。 不 仪 仪 是 虚拟 机 ， 存 
储 和 网 络 虚 拟 化 提供 的 接口 也 提供 了 类 似 的 配置 功能 。 既 然 可 以 用 “后 门 ”间接 控制 虚拟 资源 被 分 配 后 的 配置 ， 那 将 整个 流程 自动 化 就 是 顺理成章 的 事情 了 。 管 理 员 需 要 做 的 是 经 过 实验 ， 事 先 定义 一 套 工 
作 流程 ， 按 照 流程 管理 系统 的 规则 将 工作 流程 变 成 可 重复 执行 的 配置 文件 ， 在 实际 应 用 的 时 候 配 置 几 个 简单 的 参数 即 可 。 经 过 自动 改造 的 MySQL 部 署 流程 将 变 成 : 
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在 这 个 过 程 中 ， 如 果 需 要 部 署 的 流程 并 不 需要 特殊 的 参数 ， 而 是 可 以 用 预 设 值 工作 ， 甚 至 可 以 做 到 真正 的 “一 键 部 署 ”， 那 么 软件 定义 数据 中 心 就 可 以 显示 出 强大 的 优势 了 。 不 仅仅 资源 的 利用 可 以 做 
到 按 需 分 配 ， 分 配 之 后 如 何 配置 成 用 户 熟 悉 的 服务 也 将 能 够 自动 完成 。 


如 果 你 需要 的 是 几 人 台 虚 拟 机 ， 现 在 已 经 能 够 轻松 做 到 了 ; 如 果 你 需要 的 是 同时 分 配 虚拟 机 、 人 存储 和 了 网络， 现在 也 能 够 做 到 了 ; 如 果 你 还 需要 把 这 些 资 源 包装 成 一 个 数据 库 服 务 ， 现 在 也 只 需要 动 动手 指 
就 能 完成 。 程 序 员 们 应 该 已 经 非常 满足 ， 管 理 员 也 完全 有 理由 沾沾自喜 了 。 毕 竟 ， 之 前 要 汗 流 添 背 重复 劳动 几 天 的 工作 ， 现 在 弹指 间 就 可 以 全 部 搞定 。 可 是 对 于 那些 要 使 用 成 熟 应 用 的 终端 用 户 来 说 ， 这 和 
以 前 没有 什么 区 别 。 例 如 ， 等 待 CRM (Customer Relation Management) 系统 上 线 的 用 户 ， 并 不 真正 在 意 如 何 分 配 资源 ， 如 何 建立 数据 库 ， 唯 一 能 让 他 们 感到 满意 的 是 能 够 登录 CRM 系 统 ， 开 始 使 用 这 
个 系统 管理 用 户 信息 。 


要 解决 这 个 问题 ， 让 应 用 真正 能 面向 用 户 ， 可 以 有 几 种 方法 。 在 这 个 阶段 ， 数 据 中 心 的 资源 已 经 不 是 单纯 跟 资 源 管理 者 有 关系 了 ， 而 是 与 用 户 的 应 用 程序 产生 了 交集 。 相 应 的 ， 无 论 我 们 采用 哪 一 种 方 
法 去 建立 应 用 程序 的 运行 环境 ， 也 都 必须 视 应 用 本 身 的 特性 而 定 。 如 表 1-1 所 示 ， 第 一 种 方法 是 发 展 了 自动 部 署 数据 库 的 流程 ， 将 这 套 流程 扩展 到 部 署 用 户 的 应 用 ， 同 样 还 是 利用 自动 化 的 流程 控制 来 配置 用 
户 程 序 。 第 二 种 是 部 署 一 套 PaaS (Platform as a Service) 的 环境 ， 将 用 户 程序 运行 在 PaaSs 之 上 。 第 三 种 看 起 来 更 简单 ， 让 用 户 自己 设计 自动 部 署 的 方法 ， 是 否 集成 到 数据 中 心 的 管理 环境 中 则 视 情况 而 


r3 


Eo 


表 1-1 运行 环境 自动 部 署 方法 比较 


自动 部 署 应 用 im 点 
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合 大 批量 部 署 


利用 SDDC AY A SITR er iit fe 需要 用 户 应 用 留 有 接口 


应 用 的 开发 环境 与 生产 运行 环境 一 致 , | 需要 额外 部 署 Paas 环境 ， 并 且 要 
避免 额外 的 调试 求 应 用 是 为 某 Paas 环境 设计 的 

难 与 下 层 服务 的 部 署 整合 ， 容 易 产 
生 开 发 时 难以 预料 的 环境 问题 


利用 PaaS 环境 


完全 交 由 应 用 开发 者 应 用 开发 者 更 了 解 部 署 细节 


各 种 方法 都 有 其 适用 的 场景 ， 并 不 能 一 概 而 论 ， 这 是 数据 中 心 的 基础 架构 面向 用 户 的 关键 一 步 。 如 果 说 之 前 的 虚拟 化 、 资 源 管 理 、 安 全 设置 、 自 动 化 流程 控制 都 还 是 数据 中 心 的 管理 员 关 心 的 话题 ， 那 
部 署 应 用 这 一 步 已 经 实 实在 在 把 化 了 钱 、 买 了 这 些 服务 的 用 户 拉 进 来 了 。 在 成 功 部 署 了 应 用 之 后 ， 软 件 定义 数据 中 心 才 算是 真正 自 底 向 上 地 建立 了 起 来 。 


如 图 1-6 所 示 ， 软 件 定 义 数据 中 心 是 一 个 从 硬件 到 应 用 的 完整 框架 。 用 户 的 需求 永远 是 技术 发 展 的 原动力 ， 软 件 定义 数据 中 心 也 不 例外 。 我 们 在 上 文中 提 到 了 数据 中 心 在 云 与 大 数据 的 年 代 面临 的 诸多 挑 
战 ， 传 统 数据 中 心 的 计算 、 存 储 、 网 络 、 安 全 、 管 理 都 已 无 法 应 对 日 益 变 化 的 用 户 需求 。 在 这 种 四 面 楚 歌 的 状况 下 ， 软 件 定义 计算 (或 称 计算 虚拟 化 ) 作为 一 种 既成 熟 又 新 颖 的 技术 ， 成 为 了 解决 困 局 的 突 
破 口 。 随 之 而 来 的 是 软件 定义 存储 和 网 络 技术 。 在 资源 的 虚拟 化 已 经 完成 之 后 ， 虚 拟 环境 中 的 安全 与 管理 需求 变 成 了 第 二 波 创 新 的 主题 。 在 这 之 后 ， 数 据 中 心 的 自动 化 流程 控制 进一步 释放 了 软件 定义 技术 
的 潜在 威力 ， 让 管理 员 不 踏足 机 房 就 能 够 如 同 指挥 干 军 万 马 一 般 调配 成 干 上 万 的 虚拟 机 配置 数据 库 、 文 件 服务 、 活 动 目录 等 服务 ， 甚 至 可 以 更 进一步 ， 自 动 部 署 成 熟 的 用 户 程 序 提供 给 用 户 使 用 。 
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1-6 ”支持 具体 应 用 的 软件 定义 数据 中 心 


软件 定义 数据 中 心 是 应 用 户 需求 而 发 展 的 ， 但 并 不 是 一 跃 而 就 地 满足 了 用 户 的 初始 需求 。“ 非 不 为 也 ， 实 不 能 也 ”。 软 件 定义 数据 中 心 是 一 项 庞大 的 系统 工程 ， 基 础 如 果 不 稳固 ， 仓 促 地 提供 服务 只 会 
带 来 严重 的 后 果 。 云 计算 服务 就 是 个 很 好 的 例子 。 云 计算 服务 的 后 端 无 疑 需要 强大 的 软件 定义 数据 中 心 做 支撑 。 国 内 有 数 家 学 习 亚 马 逊 的 企业 ， 本 着 “一 手 抓 学 习 ， 一 手 抓 运营 ”的 精神 ， 在 技术 并 不 成 熟 
的 情况 下 ，“ 勇 敢 ”地 向 大 家 提供 云 计 算 服务 ， 但 是 计算 的 稳定 性 、 存 储 的 可 靠 性 、 网 络 的 可 用 性 都 暴露 出 了 许多 问题 ， 用 户 体验 实 在 无 法 让 人 满意 。 


当然 ， 并 不 是 任何 一 个 软件 定义 数据 中 心 都 需要 完全 如 上 文 所 述 ， 搭 建 从 硬件 到 用 户 的 完整 框架 ， 也 不 是 所 有 可 以 称 为 软件 定义 数据 中 心 的 计算 环境 都 具备 上 文 所 述 的 所 有 功能 。 一 切 还 是 应 用 说 了 
算 。 例 如 ， 用 户 可 能 仅仅 需要 虚拟 桌面 服务 并 不 需要 复杂 的 虚拟 网 络 ， 但 是 安全 和 自动 控制 流程 要 特别 加 强 ; 用 户 需要 大 规模 可 扩展 的 存储 做 数据 分 析 ， 那 软件 定义 存储 将 扮演 更 重要 的 角色 ， 计 算 虚 拟 化 
就 可 以 弱化 一 些 。 一 切 以 满足 用 户 需求 为 前 提 是 软件 定义 数据 中 心 发 展 的 动力 ， 也 是 目标 。 


1.4 架构 分 析 


需求 推动 着 软件 定义 数据 中 心 一 步 步 完 善 自 己 的 体系 架构 ， 这 也 充分 说 明 ，“ 软 件 定义 ”的 必要 性 不 是 赁 空想 象 出 来 的 ， 是 由 实际 的 需求 推动 产生 的 。 回 顾 之 前 描述 的 发 展 路 径 ， 我 们 已 经 可 以 大 致 归 
纳 出 软件 定义 数据 中 心 的 层次 结构 ， 但 是 思路 还 不 够 清晰 。 因 此 ， 有 必要 从 系统 分 析 的 角度 ， 清 楚 地 描述 一 下 软件 定义 数据 中 心包 括 哪些 部 分 或 层次 ， 以 及 实现 这 些 组 件 需要 的 关键 技术 和 整个 系统 提供 的 
交互 接口 。 


1.4.1 基本 功能 模块 
软件 定义 数据 中 心 最 核心 的 资源 是 计算 、 存 储 与 网 络 ， 这 三 者 无 疑 是 基本 功能 模块 。 与 传统 的 概念 不 同 ， 软 件 定义 数据 中 心 更 强调 从 硬件 抽象 出 的 能 力 ， 而 并 非 硬件 本 身 。 


对 于 计算 来 说 ， 计 算 能 力 需要 从 硬件 平台 上 抽象 出 来 ， 让 计算 资源 脱离 硬件 的 限制 ， 形 成 资源 池 。 计 算 资源 还 需要 能 够 在 软件 定义 数据 中 心 汉 围 内 迁移 ， 这 样 才能 动态 调整 负载 。 虽然 虚拟 化 并 不 是 必 
要 条 件 ， 但 是 目前 能 够 实现 这 些 需求 的 ， 仍 非 虚 拟 化 莫 属 。 对 存储 和 网 络 的 要 求 则 首先 是 控制 层 (Control Plane) 与 数据 层 (Data Plane) 的 分 离 ， 这 是 脱离 硬件 控制 的 第 一 步 ， 也 是 能 够 用 软件 定义 这 
些 设备 行为 的 初级 阶段 。 在 这 之 后 ， 才 有 条 件 考虑 如 何 将 控制 层 与 数据 层 分 别 接 入 软件 定义 数据 中 心 。 安 全 越 来 越 成 为 数据 中 心 需 要 单独 考量 的 一 个 因素 。 安 全 隐患 既 可 能 出 现在 基本 的 计算 、 存 储 与 网 络 


之 间 ， 也 有 可 能 隐藏 在 数据 中 心 的 管理 系统 或 者 用 户 的 应 用 程序 中 。 因 此 ， 有 必要 把 安全 单独 作为 一 个 基本 功能 ， 与 以 上 3 种 基本 资源 并 列 。 


有 了 这 些 基本 的 功能 还 不 够 ， 还 需要 集中 的 管理 平台 把 它们 联系 在 一 起 。 如 图 1-7 所 示 ， 自 动 化 的 管理 是 将 软件 定义 数据 中 心 的 各 基本 模块 组 织 起 来 的 关键 。 这 里 必须 强调 “自动 化 ”管理 ， 而 不 只 是 一 
套 精 美的 界面 。 原 因 我 们 前 面 已 经 提 到 ， 软 件 定 义 数据 中 心 的 一 个 重要 推动 力 是 用 户 对 于 超大 规模 数据 中 心 的 管理 ，“ 自 动 化 ”无 疑 是 必 选 项 。 


图 1-7 软件 定义 数据 中 心 功 能 划分 


1.4.2 ”层次 细 分 


了 解 了 软件 定义 数据 中 心 有 哪 些 基本 功能 后 ， 我 们 再 看 一 下 这 些 基本 功能 是 怎样 按照 层次 化 的 定义 逐 级 被 实现 并 提供 服务 的 。 分 层 的 思路 其 实 已 经 出 现在 关于 “软件 定义 的 必要 性 ”的 探讨 中 ， 之 所 以 
出 现 这 样 的 层次 ， 并 不 是 出 于 自 顶 向 下 的 预先 设计 ， 而 是 用 户 需求 推动 的 结果 。 现 实 中 无 数 的 例子 告诉 我 们 ， 只 有 用 户 的 需求 或 者 说 市 场 的 认可 才 是 技术 得 以 生存 和 发 展 的 原动力 。 

如 图 1-8 所 示 ， 在 软件 定义 数据 中 心 最 底层 是 硬件 基础 设施 ， 主 要 包括 服务 器 、 存 储 和 各 种 网 络 交换 设备 。 软 件 定义 数据 中 心 对 于 硬件 并 没有 特殊 的 要 求 。 服 务 器 最 好 能 支持 最 新 的 硬件 虚拟 化 并 具备 完 
善 的 带 内 (In Band) 、 带 外 (Out of Band) 管理 功能 ， 这 样 可 以 最 大 限度 提升 虚拟 机 的 性 能 和 提供 自动 化 管理 功能 。 但 是 ， 即 使 没有 硬件 虚拟 化 的 支持 ， 服 务 器 一 样 可 以 工作 ， 只 是 由 于 部 分 功能 需要 由 
软件 模拟 ， 性 能 会 稍 打折 扣 。 这 说 明 软 件 定义 数据 中 心 对 于 硬件 环境 的 依赖 性 很 小 ， 新 的 旧 的 硬件 都 可 以 统一 管理 ， 共 同 发 挥 作用 。 另 外 ， 当 更 新 的 硬件 出 现时 ， 又 能 够 充分 发 挥 新 硬件 的 能 力 ， 也 让 用 户 


月 去 


有 充足 的 动力 不 断 升级 硬件 配置 ， 以 求 更 好 的 性 能 。 
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图 1-8 ”软件 定义 数据 中 心 的 分 层 模型 


在 传统 的 数据 中 心 ， 硬 件 之 上 应 该 就 是 系统 软件 和 应 用 软件 了 。 但 是 在 软件 定义 数据 中 心里 ， 硬 件 的 能 力 需 要 被 抽象 成 为 能 够 统一 调度 管理 的 资源 池 ， 因 此 ， 必 须 有 新 技术 完成 这 一 工作 。 计 算 、 存 储 
和 网 络 资源 的 抽象 方式 各 不 相同 ， 在 这 一 层次 ， 主 要 有 以 下 一 些 关 键 技术 可 以 帮助 我 们 完成 虚拟 化 和 “ 池 化 ” (Pooling) 的 工作 。 更 多 的 技术 细节 在 后 续 章 节 会 有 详细 的 介绍 。 


. 软件 定义 计算 : 虚拟 化 是 软件 定义 计算 最 主要 的 解决 途径 。 虽 然 类 似 的 技术 早 在 IBM S/360 系 列 的 机 器 中 已 经 出 现 过 ， 但 是 其 真正 “平民 化 ”、 走 入 大 规模 数据 中 心 还 是 在 VMware 推出 基于 x86 架 构 处 
理 器 的 虚拟 化 产品 之 后 。 随 后 ， 还 有 基于 XEN、KVM 等 的 开源 解决 方案 。 虚 拟 机 成 为 计算 调度 和 管理 的 单位 ， 可 以 在 数据 中 心 甚至 跨 数 据 中心 的 范围 内 动态 迁移 而 不 用 担心 服务 会 中 断 。 


- 软件 定义 存储 : 主流 的 技术 方案 是 管理 接口 与 数据 读 写 实现 分 离 ， 由 统一 的 管理 接口 与 上 层 管理 软件 交互 ， 而 在 数据 交互 方面 ， 则 可 以 兼容 各 种 不 同 的 连接 方式 。 这 种 方式 可 以 很 好 地 与 传统 的 软 硬 
件 环境 兼容 ， 从 而 避免 “破坏 性 ”的 改造 。 例 如 EMC 的 ViPR 既 能 够 支持 光纤 通道 (Fiber Channel) 的 连接 ， 也 支持 基于 以 太 网 技术 的 iSCSI 等 多 种 不 同 的 协议 。 如 何 最 合理 地 利用 各 级 存储 资源 ， 在 数据 中 心 
的 级 别 上 提供 分 层 、 缓 存 也 是 需要 特别 考虑 的 。 


- 软件 定义 网 络 : 同 软件 定义 存储 一 样 ， 管 理 接 口 与 数据 读 写 首先 要 分 离 。 由 软件 定义 的 不 仅仅 是 网 络 的 拓扑 结构 ， 还 可 能 有 层 倒 的 结构 。 前 者 可 以 利用 开放 的 网 络 管理 接口 例如 OpenFlow 来 完成 ， 后 


者 则 可 能 是 基于 VxLAN 的 层 又 虚拟 网 络 。 


当 服 务 器 、 存 储 和 网 络 已 经 被 抽象 成 虚拟 机 、 虚 拟 存 储 对 象 ( 块 设备 、 文 件 系统 、 对 象 存储 ) 、 虚 拟 网 络 ， 回 到 图 1-8 我 们 可 以 发 现 各 种 资源 在 数量 上 和 表现 形式 上 都 与 硬件 有 明显 的 区 别 。 这 个 时 候 ， 
数据 中 心 至 多 可 以 被 称 为 “软件 抽象 ”的 ， 但 还 不 是 软件 定义 的 。 因 为 各 种 资源 现在 还 无 法 建立 起 有 效 的 联系 。 要 统一 管理 虚拟 化 之 后 的 资源 ， 不 仅仅 是 将 状态 信息 汇总 、 显 示 在 同一 个 界面 ， 而 是 需要 能 
够 用 一 套 统 一 的 接口 更 进一步 集中 管理 这 些 资源 。 例 如 VMware 的 vCenter 和 vCloud Director 系 列 产 品 能 够 让 用 户 对 数据 中 心中 的 计算 、 存 储 、 网 络 资源 进行 集中 管理 ， 如 图 1-9 所 示 ， 并 能 提供 权限 控 
制 、 数 据 备份 、 高 可 靠 等 额外 的 特性 。 
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比 资源 管理 更 贴近 最 终 用 户 的 是 一 系列 的 服务 ， 如 图 1-8 所 示 ， 可 以 是 普通 的 邮件 服务 、 文 件 服务 、 数 据 库 服务 ， 也 可 以 是 针对 大 数据 分 析 的 Hadoop 集 群 等 服务 。 对 于 配置 这 些 服务 来 说 ， 软 件 定义 数 
据 中 心 的 独特 优势 是 自动 化 。 例 如 VMware 的 vCAC (vCloud Automation Center) 就 可 以 按照 管理 员 预 先 设 定 的 步骤 ， 自 动 部 署 从 数据 库 到 文件 服务 器 的 几乎 任何 传统 服务 。 绝 大 多 数 部 署 的 细节 都 是 预 
先 定义 的 ， 管 理 员 只 需要 调整 几 个 参数 就 能 完成 配置 。 这 对 于 在 Linux 环 境 中 安装 过 Oracle 数 据 库 的 工程 师 来 说 ， 简 直 如 同 梦 幻 一 般 。 即 使 有 个 别 特殊 的 服务 (例如 用 户 自己 开发 的 服务 ) 没有 事先 定义 的 部 
署 流程 ， 但 也 可 以 通过 图 形 化 的 工具 来 编辑 工作 流程 ， 并 且 反 复 使 用 。 


从 底层 硬件 到 提供 服务 给 用 户 ， 资 源 经 过 了 分 割 (虚拟 化 ) 、 重 组 (资源 池 ) 、 再 分 配 (服务) 的 过 程 ， 增 加 了 许多 额外 的 层次 。 从 这 个 角度 看 ，“ 软 件 定义 ”不 是 没有 代价 的 ， 但 层次 化 的 设计 有 利 
于 各 种 技术 并 行 发 展 和 协同 工作 。 这 与 网 络 协议 的 发 展 非常 类 似 。TCP/IP 协 议 簇 正 是 因为 清晰 地 定义 了 各 协议 层次 的 职责 和 互相 的 接口 ， 才 使 参与 各 方 都 能 协同 发 展 。 研 究 以 太 网 的 可 以 天 注 提高 传输 速度 
和 链 路 状态 的 维护 ， 研 究 |P 层 的 则 可 以 只 关心 与 |P 路 由 相关 的 问题 。 让 专家 去 解决 他 们 各 自 领 域内 的 专业 问题 ， 无 疑 是 效率 最 高 的 。 软 件 定义 数据 中 心 的 每 一 个 层次 都 涉及 许多 关键 技术 。 回 顾 一 下 上 文 的 
层次 结构 ， 我 们 可 以 发 现 ， 有 些 技术 由 来 已 信 ， 但 是 被 重新 定义 和 发 展 了 ， 例 如 软件 定义 计算 、 统 一 的 资源 管理 、 安 全 计算 和 高 可 靠 等 ， 有些 技术 则 是 全 新 的 ， 并 仍 在 迅速 发 展 ， 例 如 软件 定义 存储 、 软 件 
定义 网 络 、 自 动 化 的 流程 控制 。 这 些 技术 是 软件 定义 数据 中 心 赖 以 运转 的 关键 ， 也 是 软件 定义 数据 中 心 的 核心 优势 。 本 书 的 第 2 章 将 对 这 些 关键 技术 加 以 深入 讨论 。 


1.4.3 ”接口 与 标 ) 


任何 一 个 复杂 的 系统 都 应 该 可 以 被 划分 成 若干 个 模块 ， 既 方便 开发 也 方便 使 用 和 维护 。 按 照相 同 的 逻辑 ， 复 杂 的 模块 本 身 也 是 一 个 系统 ， 又 可 以 被 继续 细 分 。 在 模块 和 层次 划分 的 过 程 中 ， 只 要 清晰 地 
定义 了 模块 、 层 次 之 间 的 接口 ， 就 不 必 担 心 各 部 分 无 法 联合 成 一 个 整体 。 我 们 已 经 列举 了 软件 定义 数据 中 心 的 模块 和 层次 ， 下 面 再 看 看 不 同 的 具体 实现 采用 了 哪些 接口 。 作 为 数据 中 心 发 展 的 新 阶段 ， 软 件 
定义 数据 中 心 在 快速 发 展 ， 但 还 没有 出 现 一 种 统一 的 或 是 占 主导 优势 的 标准 。 我 们 可 以 从 成 熟 度 和 开放 性 两 个 方面 ， 对 一 些 接口 标准 作 个 比较 ， 如 表 1-2 所 示 。 


表 1-2 接口 标准 比较 


成 熟 度 开 放 性 

成 资源 管理 、 状 态 监 控 、 

VMware 性 能 分 析 等 各 方面 。API 相对 稳定 ， 并 有 清晰 
的 发 展 路 线 图 


比较 开放 的 接口 标准 ， 有 成 熟 的 开发 社区 和 
牛 态 系统 ， 是 企业 级 厂商 选择 兼容 的 首选 


完全 开放 的 接口 标准 并 且 计 算 与 存储 服务 能 
个 兼容 AWS AY API 


OpenStack EE 储 、 网 络 、 监 控 、 自 动 化 管理 等 部 分 API 比 
较 初 级 ， 不 适用 于 生产 环境 ， 需 要 进一步 加 强 


System Center MAH API 个 够 开放 的 标准 ， 有 开发 社区 做 文 择 
原本 作为 单独 的 产品 发 布 ， 接 口 与 开发 人 员 
比较 成 熟 的 API， 比 较 新 的 功能 如 目 动 化 管 | 不 完全 开放 。 后 转 为 由 开源 社区 文 持 ， 大 部 分 


CloudStack mi ue ae ipie pean sige op ni dE pede ^ 
理 和 网 络 管理 由 开源 社区 实现 API 均 已 开放 。 计 算 与 存储 服务 兼容 AWS AY 
API 
从 对 比 我 们 可 以 看 到 ， 这 几 个 可 以 用 于 构建 软件 定义 数据 中 心 的 软件 集 在 编程 接口 (API) 的 成 熟 度 和 开放 程度 上 各 有 特点 。 作 为 针对 企业 级 部 署 的 成 熟 产品 ，VMware 和 微软 的 产品 从 接口 上 看 都 提供 


更 丰富 全 面 的 功能 ， 发 展 方向 也 有 迹 可 循 。 作 为 开源 解决 方案 代表 的 OpenStack 则 采用 了 “野蛮 生长 ”的 策略 ,例如 Neutron (原名 Quantum) 最 初 发 布 的 版 本 简陋 得 几乎 无 法 使 用 ， 但 是 不 到 半年 ， 提 
供 的 API 就 能 够 驱动 NVP 等 强大 的 网 络 控制 器 。 迅 速 和 迭代 的 代价 就 是 用 户 始 终 难以 预计 下 一 版 本 是 否 会 变动 编程 接口 ， 影 响 了 用 户 对 Openstack 的 接受 度 。 


1.5 ”现状 与 友 展 


说 了 这 么 多 数据 中 心 发 生 的 变化 ， 固 然 激 动人 心 ， 但 是 视角 仍 略 显 单一 。 单 单 从 技术 角度 考量 ， 历 史上 许多 优秀 的 技术 革新 与 发 明 创造 都 具有 划时代 的 意义 ， 但 其 中 很 多 却 没有 如 大 家 预期 产生 应 有 的 
影响 ,或 者 拖延 了 很 久 才 重 新 被 人 们 所 认识 。 例 如 RISC 架 构 的 处 理 器 设计 、 虚 拟 化 技术 、 瘦 客户 机 、 分 布 式 文件 系统 等 ， 数 不 胜 数 。 因 此 ， 我 们 不 妨 暂 时 走出 纯 技术 的 思路 ， 站 在 旁观 者 的 角度 看 一 下 产业 
界 是 如 何 看 待 和 发 展 软件 定义 数据 中 心 的 。 


在 对 待 软件 定义 数据 中 心 的 态度 上 ， 用 户 是 最 积极 的 。 这 里 所 说 的 用 户 ， 并 不 是 每 天 逛 淘宝 的 买 家 ， 也 不 是 拿 着 手机 不 停 刷 微 博 、 微 信 的 “ 准 网 净 患 者 ” ， 而 是 运行 这 些 应 用 的 服务 提供 商 。 这 些 “ 用 
户 ”传统 上 会 租用 成 熟 的 数据 中 心 ， 把 自己 的 服务 器 、 人 存储 托管 在 数据 中 心 的 机 房 。 这 种 模式 的 优势 显而易见 ， 数 据 中 心 会 负责 机 房管 理 、 日 常 维护 、 电 力 供 应 、 防 火 、 空 调 等 自己 擅长 的 工作 ， 保 证 硬件 
设备 的 最 大 可 用 性 ; 同时 ， 应 用 服务 提供 商 可 以 专注 维护 他 们 自己 的 应 用 系统 。 但 是 好 景 不 长 ， 数 据 中 心 的 大 客户 们 很 快 发 现 随 着 自己 业务 的 增长 ， 已 经 没有 一 个 单独 的 数据 中 心 能 满足 自己 的 需求 了 ， 而 
软件 、 硬 件 的 采购 与 部 署 也 日 益 成 为 业务 发 展 的 瓶颈 。2012 年 谷歌 在 全 球 有 数 十 万 台 服 务 器 为 用 户 提 供 服 务 ， 并 且 每 天 在 全 球 各 地 的 数据 中 心 都 有 以 机 柜 计数 的 服务 器 上 架 运 行 ， 以 至 于 谷歌 的 基础 架构 设 
计 师 也 无 法 确切 知道 到 底 全 球 有 多 少 台 服务 器 在 为 它 服务 。 


面临 急剧 增长 的 计算 需求 ， 这 些 往 日 数据 中 心 的 大 客户 不 得 不 自己 动手 定制 数据 中 心 。 谷 歌 是 这 一 潮流 的 先行 者 。 有 趣 的 是 ， 它 将 自己 的 数据 中 心 技 术 作为 公司 的 核心 机 密 。 据 称 ， 谷 歌 与 接触 数据 中 
心 技 术 的 雇员 签订 了 保密 协议 ， 即 使 这 些 雇员 离职 ， 一 定期 限 内 也 不 能 透露 其 数据 中 心 的 技术 细节 。 社 交 网 络 巨 头 Facebook 也 清楚 地 意识 到 下 一 代数 据 中 心 技术 对 于 未 来 互联 网 乃至 整个 |T 技 术 发 展 至 关 重 
要 的 意义 。 与 谷歌 不 同 ，Facebook 并 没有 试图 包揽 从 数据 中 心 硬件 到 软件 的 所 有 设计 ， 而 是 拉 来 了 很 多 合作 伙伴 ， 并 把 自己 数据 中 心 的 设计 “开源 ”出 来 变 成 了 “开放 计算 项 目 ” (Open Compute 
Project, OCP) 。OCP 并 不 仪 限 于 软 硬 件 设 计 ， 还 包括 数据 中 心 的 建筑 规范 、 电 力 、 制 冷 、 机 架 机 械 设计 等 内 容 ， 是 一 份 建设 数据 中 心 的 蓝图 。 国 内 的 互联 网 和 IT 巨 头 也 在 发 展 自己 的 数据 中 心 技术 。 由 
BAT (百度 、 阿 里 巴巴 、 腾 讯 ) 发 起 的 “天 蝎 计 划 ” (Scorpio) 主要 包括 一 套 开放 机 架设 计 方 案 ， 目 标 是 提供 标准 化 的 计算 模块 ， 能 够 迅速 部 署 到 数据 中 心 提 供 服 务 。 他 们 的 共同 特点 是 模块 化 的 设计 和 为 
大 规模 迅速 部 署 做 出 的 优化 。 细 心 的 读者 可 能 会 发 现 ， 在 这 些 标准 中 ， 涉 及 软件 的 部 分 很 少 。 这 么 大 规模 的 硬件 部 署 ， 是 如 何 管理 的 呢 ? 是 不 是 在 下 一 个 版 本 的 文档 发 布 时 就 会 说 明了 ? 非常 遗憾 ， 这 正 是 
互联 网 巨头 们 的 核心 机 密 。 


系统 集成 商 和 服务 提供 商 对 于 数据 中 心 发 展 的 看 法 与 传统 的 数据 中 心 用 户 略 有 不 同 ， 而 且 并 不 统一 。1BM 和 HP 这 类 公司 是 从 制造 设备 向 系统 和 服务 转型 的 例子 。 在 对 待 下 一 代数 据 中 心 的 发 展 上 ， 这 类 
公司 很 自然 地 倾向 于 能 够 充分 发 挥 自己 在 设备 制造 和 系统 集成 方面 的 既 有 优势 ， 利 用 现 有 的 技术 储备 引导 数据 中 心 技术 的 发 展 方向 。 


微软 作为 一 个 传统 上 卖 软件 的 公司 ， 在 制定 Azure 的 发 展 路 线 上 也 很 自然 地 从 PaaS 入 手 ， 并 且 试 图 通过 “虚拟 机 代理 ”技术 (VM Agent and Background Info Extension) 模糊 PaaS 和 
laaS (Infrastructure as a Service) 之 间 的 界限 ， 从 而 充分 发 挥 自 身 在 软件 平台 方面 的 优势 来 打造 后 台 由 System Center 支 撑 、 提 供 PaaS 服 务 的 数据 中 心 。 最 后 还 有 一 个 特例 。 几 年 以 前 ， 某 家 公司 跟 IT 服 
务 还 不 沾边 ， 勤 勤 奶 奶 卖 了 多 年 的 书 ， 赚 了 些 钱 ， 又 继续 卖 了 许多 年 的 百货 商品 ， 突 然 有 一 天 ， 它 开始 卖 计 算 和 存储 能 力 了 。 没 错 ， 这 就 是 亚马逊 。 之 所 以 不 把 亚马逊 作为 谷歌 、Facebook 一 样 的 数据 中 心 
的 用 户 ， 是 因为 AWS (Amazon Web Service) 虽然 脱胎 于 亚马逊 的 电子 商务 支撑 平台 ， 但 是 已 经 成 为 一 套 独 立 的 业务 发 展 了 。 作 为 特例 的 亚马逊 有 特别 的 思路 : “需要 数据 中 心服 务 吗 ? 来 用 AWS 公 有 云 
qm, ^ 


最 后 还 有 传统 的 硬件 提供 商 。Intel 作 为 最 主要 的 硬件 厂商 之 一 ， 为 了 应 对 巨型 的 、 可 扩展 的 、 自 动 管理 的 未 来 数据 中 心 的 需要 ， 也 提出 了 自己 全 新 架构 的 硬件 一 一 RSA (Rack Scale Architecture) 。 
在 软件 、 系 统管 理 和 服务 层面 ，Intel 非 常 积 极地 与 OCP、 天 蝎 计 划 、Openstack 等 组 织 合作 ， 试 图 在 下 一 代数 据 中 心中 仍然 牢 牢 地 占据 硬件 平台 的 领导 地 位 。 从 设计 思路 上 ，RSA 并 不 是 为 了 软件 定义 数据 
中 心 而 设计 ， 恰 恰 相 反 ，RSA 架 构 希 望 能 在 硬件 级 别 上 提供 横向 扩展 (Scale-Out) 的 能 力 ， 避 免 “ 被 定义 ”。。 有 趣 的 是 ， 对 RSA 架 构 很 有 兴趣 的 用 户 发 现 ， 硬 件 扩展 能 力 更 强 的 情况 下 ， 软 件 定 义 计算 、 存 
储 与 网 络 正好 可 以 在 更 大 的 范围 内 调配 资源 。 


通过 概览 未 来 数据 中 心 业务 的 参与 者 ， 我 们 可 以 大 致 梳理 一 下 软件 定义 数据 中 心 的 现状 与 发 展 方向 。 


. 需求 推动 ， 有 先行 者 。 未 来 数据 中 心 的 需求 不 仅 是 巨大 的 ， 而 且 是 非常 迫切 的 ， 以 至 于 本 来 数据 中 心 的 用 户 们 等 不 及 ， 必 须 自 己 动手 建立 数据 中 心 。 而 传统 的 系统 和 服务 提供 商 则 显得 行动 不 够 迅 
速 。 这 有 些 反 常 ， 但 却 又 非常 合理 。 以 往 用 户 对 数据 中 心 的 需求 会 通过 IDC 的 运营 商 传达 给 系统 和 服务 提供 商 ， 因 为 后 者 对 于 构建 和 管理 数据 中 心 更 有 经 验 ， 相 应 的 能 提供 性 价 比 更 高 的 服务 。 然 而 ， 新 
的 、 由 软件 定义 数据 中 心 是 对 资源 全 新 的 管理 和 组 织 方式 ， 核 心 技 术 落 在 “软件 ”上 ， 那 些 传统 的 系统 和 服务 提供 商 在 这 一 领域 并 没有 绝对 的 优势 。 数 据 中 心 的 大 客户 们 ， 例 如 谷歌 、Facebook、 阿 里 巴巴 
本 身 在 软件 方面 恰恰 有 强大 的 研发 实力 ， 并 且 没 有 人 比 他 们 更 了 解 自己 对 数据 中 心 的 需求 ， 于 是 他 们 干脆 自己 建造 数据 中 心 就 是 很 自然 的 事 了 。 


- 新 技术 不 断 涌现 ， 发 展 迅速 。 软 件 定义 数据 中 心 发 端 于 服务 器 虚拟 化 技术 。 从 VMwate 在 2006 年 发 布 成 熟 的 面向 数据 中 心 的 VMwate Servet 产 品 到 本 书 编写 只 有 短 短 的 7 年 时 间 。 在 这 段 时 间 ， 不 仅仅 是 
服务 器 的 虚拟 化 经 历 了 从 全 虚拟 化 到 硬件 支持 的 虚拟 化 以 至 下 一 代 可 扩展 虚拟 化 技术 的 发 展 ， 软 件 定义 存储 、 软 件 定义 网 络 也 迅速 发 展 起 来 ， 并 成 为 数据 中 心中 实用 的 技术 。 在 数据 中 心 管理 方面 ，VMwate 
的 vCloud Director 依 然 是 最 成 熟 的 管理 软件 定义 数据 中 心 的 工具 。 但是， 以 OpenStack 为 代表 的 开源 解决 方案 也 显现 出 惊人 的 生命 力 和 发 展 速 度 。OpenStack 从 2010 年 出 现 到 变 成 云 计算 圈子 里 人 尽 强 知 的 明星 
项 目 只 用 了 不 到 两 年 时 间 。 


:发展 空间 巨大 ， 标 准 建立 中 。 与 以 往 新 技术 的 发 展 类 似 ， 软 件 定义 数据 中 心 还 处 于 高 速 发 展 时 期 ， 并 没有 一 个 占 绝 对 优势 的 标准 。 现 有 的 几 种 接口 标准 都 在 并 行 发 展 ， 也 都 有 了 自己 的 一 批 拥 护 者 。 


较 早 接受 这 一 概念 和 真正 大 规模 部 署 软件 定义 数据 中 心 的 用 户 大 多 是 VMwate 产 品 的 患 实 使 用 者 ， 因 为 从 性 能 、 稳 定性 、 功 能 的 丰富 程度 各 方面 ，VMwate 都 略 胜 一 筹 。 热 衷 技术 的 开发 人 员 则 往往 倾向 于 
OpenStack， 因 为 作为 一 个 开源 项 目 ， 能 在 上 面 “折腾 ”出 很 多 花样 。 而 原来 使 用 Windows Server 的 用 户 则 比较 自然 地 会 考虑 微软 的 System Centet 解 决 方案 。 就 像 在 网 络 技术 高 速 发 展 时 期 ， 有 许多 网 络 协 议 曾 
经 是 以 太 网 的 竞争 对 手 一 样 ， 最 终 哪 家 会 逐渐 胜出 还 得 看 市 场 的 选择 。 
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在 VMware、OpenStack 和 AWS 全 速 把 传统 数据 中 心 朝 SDDC 渤 徙 的 过 程 中 ，EMC、VMware 和 GE 在 2013 年 4 月 1 日 宣布 成 立 Pivotal 公 司 。 这 家 总 部 办 公 室 和 特 斯 拉 (Tesla) 电动 汽车 隔 街 相 望 的 公 
司 ， 同 样 背 负 着 一 个 巨大 的 使 命 一 一 在 SDDC 时 代打 造 一 个 新 的 平台 ， 这 个 新 平台 就 是 第 三 平台 (The 3rd Platform) 。 伴 随 着 SDDC 的 扩张 ， 第 三 平台 成 为 SDDC 的 战略 控制 点 。 
1. 第 三 平台 的 特征 


如 果 从 计算 机 硬件 架构 、 数 据 管理 方式 和 应 用 程序 特点 来 看 计算 机 工业 浪潮 ， 计 算 机 工业 经 历 了 如 图 1-10 所 示 的 三 次 变革 。 
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图 1-10 计算 机 工业 的 三 次 变 


在 以 大 型 机 模式 为 代表 的 第 一 平台 年 代 ， 硬 件 以 大 型 机 (Mainframe) 为 主导 。 数 据 管理 系统 还 是 索引 顺序 访问 方法 (Indexed Sequential Access Method, ISAM) ， 管 理 的 数据 一 般 在 兆 字 节 
(MB) 级 别 。 索 引 顺 序 存 取 方 法 是 1BM 公 司 发 展 起 来 的 一 个 文件 操作 系统 ， 可 以 根据 索引 连续 地 或 者 任意 地 记录 任何 访问 。 在 大 型 机 年 代 ， 主 要 应 用 是 对 一 些 账号 的 自动 化 。 例 如 在 20 世 纪 50 年 代 ， 很 多 
机 票 代理 商 还 是 通过 电话 和 手工 进行 售票 ， 这 样 的 售票 系统 极 易 出 错 。 使 美国 航空 在 大 型 机 上 实施 的 SABRE (Semi-Automatic Business-Related Environment) 系统 成 功 地 使 预订 系统 实现 账号 自动 化 。 
SABRE 之 后 逐步 演化 为 美国 知名 的 旅行 服务 Travelocity 公 司 。 


在 以 客户 端 -服务 器 模式 为 代表 的 第 二 平台 年 代 ， 硬 件 主要 是 PC 架构 的 服务 器 ， 今 天 的 主流 硬件 厂商 都 提供 近乎 商品 化 的 服务 器 。 数 据 管 理 方 法 主要 是 天 系数 据 库 ， 管 理 的 数据 量 一 般 在 太 字 节 (TB) 
级 别 。 关 系数 据 库 服务 的 主要 代表 厂商 是 Oracle 和 1IBM。 在 第 二 平台 年 代 ， 客 户 端 -服务 器 模式 的 应 用 鞍 勃 发 展 。 计 算 机 基本 上 自动 化 了 所 有 的 纸 面 企业 流程 : 电子 邮件 、 客 户 管理 系统 (CRM) 、 企 业 资 
源 计 划 系 统 (ERP) 。 


在 以 SDDC 为 代表 的 第 三 平台 年 代 ， 我 们 基本 把 基础 设施 即 服务 (Infrastructure as a Service, laaS) 当 作 新 的 硬件 平台 。 被 称 作 大 数据 的 新 的 数据 管理 方法 需要 管理 拍 字 节 (PB) 级 别 的 数据 量 。 第 
三 平台 的 应 用 ， 例 如 Gmail， 相 比 第 二 平台 具有 全 新 的 用 户 体 验 和 商业 模式 。 第 三 平台 的 应 用 具有 连续 发 布 功能 ， 即 用 户 无 需 安装 或 者 升级 软件 ， 应 用 就 能 不 断 更 新 。 第 三 平台 的 应 用 还 具有 极 大 的 横向 扩 
展 能 力 ， 随 着 用 户 的 数量 不 断 上 升 或 者 数据 量 的 不 断 上 升 ， 无 须 安 装 和 升级 软件 ， 只 需要 在 SDDC 里 面 插 入 更 多 的 计算 资源 。 下 面 简单 对 比 一 下 第 二 平台 和 第 三 平台 的 应 用 体验 和 商业 模式 的 差别 。 


场景 : X 企 业 现在 有 2000 个 员工 ， 有 6 人 台 服 务 器 支撑 他 们 的 Email 系统 。 两 年 后 X 企 业 发 展 到 6000 员 工 ， 此 时 服务 器 的 计算 和 存储 能 力 翻 倍 。 


第 二 平台 应 用 : 按 2000 人 容量 安装 ， 方 案 的 咨询 和 实施 需要 一 个 季度 左右 。 两 年 中 ， 他 们 需要 不 断 升 级 和 扩容 ; 两 年 后 ， 基 本 淘汰 6 台 旧 的 服务 器 并 引入 9 人 台新 服务 器 (相当 于 18 人 台 旧 的 服务 器 ) 以 支持 
6000 个 用 户 。 期 间 需 要 不 断 支 付 给 原 厂 维护 和 升级 费用 。 由 于 计算 资源 有 限 ， 用 户 需要 不 断 把 Email 数据 备份 到 本 地 。 


第 三 平台 应 用 : 直接 向 Gmail 申请 2000 人 账号 ， 软 件 升级 无 须 用 户 关心 ， 几 乎 每 天 都 能 交付 软件 更 新 。 两 年 中 随 着 用 户 数量 扩容 和 Email 数据 的 扩大 ， 企 业 用 户 只 要 向 Gmail 申请 更 多 资源 。Gmail 只 根 
据 用 户 的 数量 和 资源 收费 。Gmail 应 用 借助 第 三 平台 的 能 力 不 断 横向 扩展 系统 ， 但 是 对 用 户 完 全 不 可 见 。 所 以 用 户 承担 的 支持 和 维护 费用 大 幅 下 降 。 


由 此 可 见 第 三 平台 的 应 用 带 来 了 全 新 的 应 用 体验 和 商业 模式 ， 所 以 也 被 称 为 现代 应 用 .。 


2. 第 三 平台 演进 的 动力 


从 第 一 平台 过 渡 到 第 二 平台 的 主要 驱动 力 是 CPU 技术 的 发 展 导 致 剩余 CPU 周期 的 产生 。 在 大 型 机 年 代 ， 计 算 机 刚 发 明 不 久 。 那 个 时 候 内 存 相当 于 今天 缓存 的 概念 。 大 型 机 主要 处 理 的 是 输入 和 输出 ， 被 
广泛 应 用 于 后 台 的 批 处 理 计 算 。 大 型 机 的 CPU 资源 是 很 宝贵 的 ， 所 以 我 们 不 太 会 考虑 让 CPU 做 MO 和 计算 以 外 的 工作 。 使 用 计算 机 来 提高 商业 竞争 力 的 格局 基本 形成 定局 。 但 是 技术 的 演进 在 悄悄 进行 。 
Intel 公 司 的 摩尔 在 20 世 纪 60 年 代 指出 CPU 的 集成 度 每 两 年 翻 一 番 。 慢 慢 地 CPU 的 处 理 能 力 有 富余 。 这 些 富余 的 CPU 能 力 使 得 大 型 机 可 以 有 交互 界面 ， 可 以 有 分 时 用 户 处 理 。 为 支持 多 用 户 ， 自 然而 然 开始 发 
展 更 多 的 终端 (Terminal) ， 有 些 终端 开始 使 用 PC 技术 。PC 发展 到 一 定 程度 ， 人 们 发 现 PC 可 以 组 合 起 来 完成 大 型 机 的 功能 ， 而 且 价格 要 便宜 很 多 。 随 着 PC 迅猛 发 展 ， 第 二 平台 兴起 ， 围 绕 PC 生 产 软 件 硬 
件 的 企业 ， 例 如 Oracle、Apple、Microsoft 占 领 了 大 量 计算 机 和 软件 市 场 。 


从 第 二 平台 过 渡 到 第 三 平台 的 主要 驱动 力 是 SDDC 技 术 发 展 导致 所 有 计算 机 资源 (CPU、 内 存 、 网 络 和 存储 ) 都 可 以 商品 化 和 横向 动态 扩展 (Scale Out) 。 历 史 总 会 重演 ， 正 当 第 二 平台 逐步 稳定 ， 市 
场 格局 奠定， 企业 流程 不 断 自动 化 ，Email、CRM、 ERP 系 统 如 日 中 天 的 时 候 ，SDDC 技 术 出 现 了 。SDDKC 的 含义 是 软件 和 硬件 分 离 ， 硬 件 完全 被 商品 化 ， 包 括 网 络 、CPU、 内 存 和 存储 在 内 的 计算 资源 和 能 
力 可 以 横向 扩展 。 编 写 应 用 软件 的 时 候 ， 程 序 设 计 员 默 认可 以 向 系统 申请 更 多 的 资源 。 


3. 企 业 PaaS: 第 三 平台 的 操作 系统 


SDDC 作 为 向 第 三 平台 演进 的 驱动 力 ， 提 供 了 可 以 横向 扩展 的 计算 资源 。 但 是 第 三 平台 还 有 如 图 1-11 所 示 的 问题 需要 解决 。 
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1) 大 数据 和 现代 应 用 如 何 简单 有 效 地 利用 SDDC 提 供 的 可 以 横向 扩展 的 资源 池 ? 

2) 大 数据 管理 系统 和 现代 应 用 如 何 运行 在 不 同 的 SDDC 平 台 上 ， 如 VMware、AWS、Openstack? 

3) 大 数据 如 何 支撑 非常 大 量 的 数据 和 分 析 ? 如 何 允 许 物 联 网 类 应 用 的 大 量 数据 和 事件 的 实时 注入 和 处 理 ? 
4) 现代 应 用 如 何 支持 敏捷 开发 和 连续 发 布 ? 现代 应 用 如 何 兼 容 传统 应 用 ? 


为 了 解决 这 些 问 题 ， 工 业界 提出 了 企业 PaaS， 企 业 PaaS 也 就 成 了 第 三 平台 的 核心 。Paul Maritz ( 原 Vmware 公 司 的 CEO) 和 Scott Yara (Greenplum 公 司 的 创始 人 ， 后 随 着 并 购 加 入 EMC 公 司 ) AK 
表 的 领导 团队 率先 看 到 了 这 个 企业 Paas 平 台 的 必要 性 ，GE 公 司 也 认为 其 工业 控制 的 软件 服务 需要 从 第 二 平台 向 第 三 平台 迁移 。 在 这 个 大 背景 下 ，EMC、VMware 和 GE 三 家 公司 联合 投资 和 成 立 了 Pivotal 公 
司 来 迎接 工业 界 的 这 一 挑战 和 机 遇 。 


4.PivotalOne: 第 三 平台 上 的 企业 PaaS 


Pivotal 公 司 成 立 的 时 候 ， 它 从 母 公 司 EMC 和 兄弟 公司 VMware 继承 了 第 三 平台 所 需 的 大 量 产品 和 知识 产权 以 加 快 企业 PaaSs 的 建设 。Pivotal 公 司 提出 的 企业 PaaS 命 名 为 PivotalOne， 它 包括 如 图 1-12 所 
示 的 三 个 子 系统 : Cloud Fabric、Data Fabric 和 Application Fabric。 
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图 1-12 ”PivotalOne 结 构图 


Cloud Fabric 主 要 继承 了 原 VMware 的 Cloud Foundry 项 目 。 它 的 主要 设计 目标 是 对 SDDC 基 础 设施 进行 抽象 ,使 得 Cloud Fabric 可 以 运行 在 任何 SDDC 上 或 者 从 一 个 SDDC 技 术 迁 移 到 另外 一 个 SDDC 
技术 。Cloud Fabric 运 行 第 三 平台 的 服务 注册 并 发 布 他 们 提供 的 应 用 开发 服务 ， 例 如 MySQL 和 Rabbit MQ。 最 后 ，Cloud Fabric 对 应 用 程序 的 生命 周期 进行 管理 ， 从 应 用 程序 的 部 署 (Provisioning) 到 升 


Data Fabric 主 要 继承 了 Greenplum 公 司 的 数据 库 、Hadoop 产 品 和 GemsStone 公 司 的 GemFire 产 品 。Data Fabric 部 署 和 运行 在 Cloud Fabric 上 ， 提 供 Hadoop 文 件 系 统 (HDFS) 作为 存储 和 计算 的 基 
础 ， 并 在 HDFSs 进 行 批 处 理 运算 和 实时 事件 注入 和 运算 。HDFS 文 件 系 统 可 以 支撑 PB 级 别 的 存储 和 计算 。Greenplum 数 据 库 的 并 行 处 理 能 力 在 HDFS 上 可 以 进行 基于 SQL 的 数据 查询 和 计算 。GemFire 在 
HDFS 上 提供 基于 内 存 的 快速 查询 和 计算 。 


Application Fabric 继 承 了 原 VMware 公 司 的 vFabric 和 Spring 社区 的 Spring 开发 框架 。Application Fabric 的 语言 和 框架 支撑 多 种 编程 语言 (例如 Ruby、Groovy 和 Java) ， 并 支撑 用 这 些 语言 编写 的 程 
序 的 动态 运行 容器 。Application Fabric 的 Spring 是 为 社区 所 广泛 采用 的 、 支 持 多 种 设计 模式 (Design Pattern) 的 编程 框架 。Spring 帮 助 用 户 极 大 提高 编程 的 效率 和 程序 的 可 维护 性 。 最 后 ，Application 
Fabric 提 供 分 析 开 发 库 和 模块 帮助 用 户 更 好 地 编写 大 数据 应 用 。 在 大 数据 时 代 ， 用 户 的 程序 需要 很 方便 地 抓 取 (Crawl) 或 者 注入 (Ingest) 数据 ,分析 模块 提供 了 非常 丰富 的 APl。 另 外 ， 机 器 学 习 的 算法 
对 于 一 般 应 用 编写 者 过 于 复杂 ， 分 析 模 块 也 提供 一 整套 完整 的 机 器 学 习 的 库 ， 可 以 非常 高 效率 地 运行 在 Data Fabric EF. 


PivotalOne 的 兴起 ， 使 得 原来 只 被 互联 网 先锋 们 (谷歌 公司 和 Facebook 公 司 等 ) 掌握 的 第 三 平台 技术 也 为 大 型 传统 企业 (例如 GE 公司 和 AT&T 公 司 ) 所 用 。PivotalOne 正 在 帮助 这 些 传统 企业 从 第 二 
平台 向 第 三 平台 迁移 。 在 未 来 的 十 几 年 中 ， 预 计 将 有 万 亿美 元 价值 的 软件 市 场 从 第 二 平台 迁移 到 第 三 平台 。 


二 部 分 关键 技术 


第 2 章 ”软件 定义 的 计算 

第 3 章 ”软件 定义 存储 

第 4 章 ”软件 定义 网 络 

第 5 章 ”自动 化 资源 管理 

第 6 章 ”流程 控制 

第 7 章 软件 定义 数据 中 心 的 安全 


Boe ”软件 定义 的 高 可 用 性 


第 2 草 ”软件 定义 的 计算 


2.1 虚拟 化 的 定义 与 基本 概念 


2.1.1 虚拟 化 定义 


“虚拟 化 ”并 不 是 一 个 新 的 技术 ， 早 在 20 世 纪 60 年 代 的 1BM 大 型 机 系统 中 就 曾 提出 这 个 概念 。 当 时 “虚拟 化 ”的 含义 局 限于 将 大 型 机 的 资源 在 逻辑 上 划分 给 不 同 的 应 用 程序 ， 通 过 多 任务 处 理 ， 可 在 大 


型 机 上 同时 运行 多 个 应 用 程序 和 进程 。 随 着 时 间 的 推移 ，“ 虚 拟 化 ”一 词 的 内 涵 已 经 扩展 到 对 硬件 平台 、 操 作 系统 、 人 存储 设备 与 计算 机 网 络 资源 的 抽象 、 定 义 与 资源 的 重新 整合 。 
关于 虚拟 化 的 定义 并 没有 严格 的 标准 。 下 面 给 出 一 些 典 型 定义 : 
" “虚拟 化 通常 是 指 一 种 分 离 机制 ， 即 将 服务 请 求 从 物理 层 提供 的 服务 中 分 离 出 来 。” 一 一 VMware 公 司 
* “虚拟 化 是 资源 的 逻辑 表示 ， 它 不 受 物理 限制 的 约束 。” 一 一 IBM 公 司 


“虚拟 化 是 对 物理 资源 和 位 置 的 抽象 ， 服 务 器 、 应 用 程序 、 桌 面 、 存 储 与 网 络 等 IT 资源 不 再 与 物理 设施 紧密 耦合 ， 而 是 呈现 为 逻辑 资源 ， 虚 拟 化 技术 就 是 对 物理 资源 和 逮 辑 资源 之 间 的 映射 关系 进行 
创建 和 管理 。” 一 一 EMC 公 司 


综 上 ， 虚 拟 化 技术 的 核心 就 是 对 物理 资源 的 抽象 。 在 实现 上 ， 通 过 提供 类 似 于 一 个 通用 接口 的 操作 集合 来 隐藏 物理 层 不 同属 性 的 差异 。 
2.1.2 ”虚拟 化 产生 背景 


虚拟 化 技术 的 产生 与 发 展 是 与 大 型 机 的 发 展 和 服务 器 的 硬件 成 本 变化 息息相关 的 。20 世 纪 50 年 代 至 70 年 代 正 是 大 型 机 的 黄金 时 期 ， 但 是 大 型 机 成 本 高 晶 ， 用 户 和 厂商 都 在 探索 提高 硬件 利用 率 和 降低 成 
本 的 方法 。 在 这 一 背景 下 ，1BM 公 司 的 CP-67 软 件 率先 通过 分 区 技术 允许 多 个 应 用 程序 同时 在 大 型 机 系统 上 运行 。 尽 管 这 对 大 型 机 市 场 产生 了 巨大 的 影响 ， 但 是 毕竟 曲 高 和 嘉 ， 这 种 早期 虚拟 化 技术 无 法 对 
当时 的 业界 产生 类 似 于 今天 的 影响 。 随 着 分 布 式 计 算 和 多 用 户 操作 系统 的 逐渐 普及 ， 以 及 硬件 成 本 的 快速 下 降 ， 成 本 低廉 的 服务 器 开始 轩 露 头角 ， 大 型 机 上 的 虚拟 化 技术 开始 遇 冷 。 到 了 80 年 代 ， 大 部 分 厂 
商 基 本 放弃 了 虚拟 化 技术 ， 与 此 同时 发 展 起 来 的 计算 机 织 构 自然 就 没有 包括 对 于 虚拟 化 的 支持 。 


当 进 入 20 世 纪 90 年 代 ，Windows 和 Linux 操 作 系 统 的 快速 发 展 使 得 X86 处理 器 在 性 能 上 不 断 得 到 提升 ， 逐 渐 莫 定 了 其 行业 标准 地 位 。 然 而 随 着 基于 x86 服 务 器 和 桌面 部 署 的 增长 ， 人 们 开始 发 现 : 尽管 服 
务 器 硬件 设施 的 规模 在 不 断 扩 大 ， 但 是 绝 大 多 数 服务 器 上 都 仅仅 运行 一 个 应 用 程序 。 根 据 IDC 统 计 ， 在 一 个 典型 的 x86 服 务 器 上 ，CPU 利 用 率 最 高 也 不 过 10%~15%。 伴 随 着 低 资 源 利 用 率 ， 还 有 不 断 移 升 的 
运 维 成 本 : 供电 、 冷 却 以 及 复杂 的 维护 管理 开销 。 由 于 系统 的 复杂 性 随 着 系统 的 规模 呈 指 数 级 增长 ，1T 维 护 逐 渐 成 为 企业 的 难题 。 特 别 是 一 些 7x24 小 时 不 间断 运营 的 业务 模式 ， 更 加 使 得 IT 维护 难度 雪上 加 


TB» 
很 显然 ， 在 x86 服 务 器 上 又 重 现 了 20 世 纪 60 年 代 大 型 机 所 面临 的 同样 的 问题 : 物理 服务 器 的 资源 没有 被 充分 利用 ， 而 且 不 断 变化 的 业务 模式 使 得 这 种 状况 愈加 复杂 。 


在 这 样 的 时 代 背 景 下 ，VMware 公 司 将 虚拟 化 技术 引入 到 x86 平 台 上 。1999 年 ，Vmware 公 司 发 布 了 VMware WorkStation 的 第 一 个 版 本 ， 该 版 本 将 x8632 位 平台 进行 虚拟 化 。 不 久之 后 ，Vmware 公 
司 又 发 布 了 ESX 系 列 产 品 ， 开 创 了 x86 平 台 虚 拟 化 的 格局 。 另 一 个 虚拟 化 平台 Xen 也 在 同时 期 迅速 帮 展 。Xen 最 初 是 剑桥 大 学 实验 室 20 世 纪 90 年 代 末 的 一 个 内 部 研究 项 目 ， 在 获得 了 Linux Foundation 的 资助 
后 ， 很 快 成 为 开源 虚拟 化 系统 的 成 功 典 范 ， 目 前 诸如 IBM、Intel、Redhat 等 公司 都 是 Xen 开 源 社区 Xen.org 的 成 员 。 而 传统 的 桌面 操作 系统 巨头 微软 公司 也 于 2008 年 加 入 虚拟 化 的 阵营 ， 在 推出 Windows 
Server 2008 的 同时 推出 了 Hyper-V。Intel 与 AMD 等 硬件 广 商 则 在 硬件 虚拟 化 方面 为 虚拟 化 技术 推波助澜 ， 使 得 虚拟 化 技术 得 到 进一步 完善 。 


本 章 将 介绍 几 种 主要 的 虚拟 化 技术 原理 ， 以 及 CPU 虚拟 化 、 内 存 虚拟 化 与 MO 虚拟 化 技术 。 最 后 会 以 VMware 和 Xen 系 统 为 例 ， 具 体 介绍 虚拟 化 技术 的 实现 。 


2.1.3 ”计算 虚拟 化 


所 谓 计 算 虚 拟 化 ， 从 狭义 角度 可 理解 为 对 单个 物理 服务 器 的 虚拟 化 ， 主 要 包括 对 服务 器 上 的 CPU、 内 存 、I/O 设 备 进行 虚拟 化 ， 以 实现 多 个 虚拟 机 能 各 自 独立 、 相 互 隔离 地 运行 于 一 个 服务 器 之 上 。 从 广 
义 角度 也 可 理解 为 对 网 络 中 的 CPU、 内 存 、IMO 设 备 等 资源 进行 整合 、 抽 象 和 虚拟 化 。 


本 章 我 们 主要 介绍 在 单个 服务 器 上 基于 x86 平 台 的 虚拟 化 技术 。 


如 图 2-1 所 示 ， 一 个 完整 的 服务 器 虚拟 化 平台 从 下 到 上 包括 以 下 几 个 部 分 : 


答 忆 机 操作 系统 


抽象 化 的 虚拟 机 硬件 


虚拟 机 昨 控 着 


底层 物理 资源 


图 2-1 虚拟 化 系统 架构 


` 底层 物理 资源 : 包括 网 卡 、CPU、 内 存 、 存 储 设备 等 硬件 资源 ， 一 般 将 包含 物理 资源 的 物理 机 称 为 宿主 机 (Host) o 


- 庶 拟 机 监控 器 (Virtual Machine Monitor, VMM) : VMM 是 位 于 虚拟 机 与 底层 硬件 设备 之 间 的 虚拟 层 ， 直 接 运 行 于 硬件 设备 之 上 ， 负 责 对 硬件 资源 进行 抽象 ， 为 上 层 虚拟 机 提供 虚拟 运行 环境 所 需 资 
源 ， 并 使 每 个 虚拟 机 都 能 够 互 不 干扰 、 相 互 独立 地 运行 于 同一 个 系统 中 。 


- 抽象 化 的 虚拟 机 硬件 : 即 虚 拟 机 呈现 的 虚拟 化 的 硬件 设备 。 庶 拟 机 能 够 “看 到 ” 何 种 硬件 设施 ， 完 全 由 VMM 决 定 。 虚 拟 设 备 可 以 是 模拟 的 真实 设备 ， 也 可 以 是 现实 世界 中 并 不 存在 的 虚拟 设备 ， 如 
VMware 的 vmxnet 网 卡 。 

- 虚拟 机 : 相对 于 底层 提供 物理 资源 的 物理 机 ， 也 称 为 客户 机 (Guest) 。 运 行 在 其 上 的 操作 系统 则 称 为 客户 机 操作 系统 (Guest OS) 。 每 个 虚拟 机 操作 系统 都 拥有 自己 的 虚拟 硬件 ， 并 在 一 个 独立 的 虚 
拟 环境 中 执行 。 通 过 VMM 的 隔离 机 制 ， 每 个 虚拟 机 都 认为 自己 作为 一 个 独立 的 系统 在 运行 。 


人 们 通常 认为 VMM 就 是 Hypervisor (超级 管理 程序 ) ， 但 是 在 不 同 的 虚拟 化 系统 中 ，VMM 和 Hypervisor 有 着 一 定 的 区 别 。 如 图 2-2 中 的 VMware ESX 的 产品 架构 ，Hypervisor 是 位 于 虚拟 机 和 底层 物 
理 硬件 之 间 的 虚拟 层 ， 包 括 boot loader、x86 平 台 硬 件 的 抽象 层 以 及 内 存 与 CPU 调度 器 ， 负 责 对 运行 在 其 上 的 多 个 虚拟 机 进行 资源 调度 。 而 VMM 则 是 与 上 层 的 虚拟 机 一 一 对 应 的 进程 ， 负 责 对 指令 集 、 内 
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存 、 中 断 与 基本 的 |/O 设 备 进行 虚拟 化 。 当 运行 一 个 虚拟 机 时 ，Hypervisor 中 的 vmkernel 会 装载 YMM， 虚 拟 机 直接 运行 于 VMM 之 上 ， 并 通过 VM M 的 接口 与 Hypervisor 进 行 通信 。 


在 如 图 2-3 和 图 2-4 所 示 的 KYM 与 Xen 架 构 中 ， 虚 拟 层 都 称 为 Hypervisor， 不 再 有 类 似 于 ESX 中 与 虚拟 机 一 一 对 应 的 专门 提供 虚拟 化 功能 的 进程 。 为 了 统一 概念 ， 我 们 在 后 文中 将 虚拟 化 系统 中 的 虚拟 层 
统称 为 VMM。 


图 2-2 VMware ESX 产 品 架构 


图 2-3 ”KVM 产品 架构 


1 Control Domain 
(Dom 0) 


图 2-4 Xen 产 品 架 构 


2.1.4 VMM 的 要 求 与 基本 特征 


VMM 应 该 具备 什么 样 的 特性 来 确保 上 述 功能 呢 ? 早 在 1974 年 ，Gerald J.Popek5Robert P.Goldberg 就 在 他 们 合 著 的 论文 《Formal Requirements for Virtualizable Third Generation 
Architectures》 中 ， 对 VMM 提 出 了 三 个 需要 满足 的 条 件 : 


- SANIE (Equivalence Property) : 一 个 运行 于 VMM 控 制 之 下 的 程序 (虚拟 机 ) ， 除 了 时 序 和 资源 可 用 性 的 影响 ， 其 行为 应 该 与 相同 条 件 下 而 没有 VMM 时 的 行为 一 致 。 
- 资源 可 控 性 (Resource Control Property) : VMM 必 须 能 够 完全 控制 虚拟 化 的 资源 。 
- 效率 性 (Efficiency Property) : 除了 特权 指令 ， 绝 大 部 分 机 器 指令 都 可 以 直接 由 硬件 执行 ， 而 无 需 VMM 和 干涉 控制 。 


自从 这 三 个 条 件 被 提出 以 来 ， 就 一 直 被 认为 是 判断 一 个 VMM 是 否 能 够 有 效 确保 系统 实现 虚拟 化 的 准则 ， 并 为 设计 虚拟 化 系统 提供 指导 思想 。 


2.1.5 ”虚拟 化 平台 的 不 同 架 构 


目前 主流 的 虚拟 化 平台 主要 包含 以 下 三 种 : 宿主 模型 、Hypervisor 模 型 与 混合 模型 。 


mE (Hosted) 模型 如 图 2-5 所 示 ， 在 该 结构 中 所 有 资源 由 Windows、Linux 等 宿主 机 操作 系统 进行 管理 ，VMM 则 是 操作 系统 中 的 一 个 独立 内 核 模块 ， 借 助 宿主 机 操作 系统 的 服务 提供 虚拟 化 功能 。 虚 
拟 机 被 创建 后 作为 一 个 进程 进行 调度 。 当 VMM 拦 截 到 虚拟 机 对 1/O 设 备 的 访问 ， 会 把 I/O 请 求 转 发 给 一 个 用 户 态 级 别 监控 器 (User Level Monitor, ULM) 中 的 虚拟 设备 进行 处 理 ，ULM 则 会 通过 调用 宿主 
机 的 设备 接口 来 处 理 收 到 的 I/O 请 求 。 采 用 这 种 架构 的 主要 有 Vmware 公 司 早 期 的 虚拟 化 产品 ， 如 VMware Workstation 与 VMware Server, 


“Kernel” 


E2-5 ”宿主 模型 


Hypervisor 模 型 如 图 2-6 所 示 ， 在 该 模型 中 虚拟 层 能 够 直接 运行 于 硬件 设备 之 上 ， 控 制 系统 中 所 有 资源 能 够 灵活 实现 各 种 虚拟 设备 ， 并 直接 为 虚拟 机 提供 服务 。 相 比 于 宿主 模型 必须 借助 传统 操作 系统 实 
现 虚 拟 化 的 局 限 性 ， 该 模型 的 灵活 性 与 性 能 有 了 很 大 的 提升 。 这 种 模型 的 典型 代表 是 Vmware 公 司 的 ESX 产 品 。 


混合 (Hybrid) 模型 可 以 看 做 是 宿主 模型 与 Hypervisor 模 型 的 混合 体 (如 图 2- 7 所 示 ) 。 该 模型 一 方面 让 虚拟 层 直接 运行 于 硬件 之 上 ， 拥 有 所 有 物理 资源 ; 另 一 方面 借鉴 了 宿主 模型 中 保留 操作 系统 已 
有 的 设备 接口 的 特点 ， 将 MO 设备 的 控制 权 放 在 一 个 特殊 的 虚拟 机 (Service VM) 中 。 当 其 他 虚拟 机 要 访问 MO 设备 时 ，MO 请 求 会 被 转发 给 service VM 中 的 设备 模型 进行 处 理 。 由 于 MO 请 求 从 Hypervisor 
中 分 离 出 来 ，Hypervisor 只 负责 CPU 与 内 存 的 虚拟 化 ， 因 此 整体 系统 性 能 较 高 。 开 源 虚 拟 化 系统 Xen 与 Hyper-V 是 该 模型 的 代表 产品 。 


service VM 


Hypervisor 


Hypervisor 


设备 模型 (上 ) 
设备 驱动 “下 ) 


第 2 草 ”软件 定义 的 计算 


2.1 ”虚拟 化 的 定义 与 基本 概念 


2.1.1 虚拟 化 定义 


“虚拟 化 ”并 不 是 一 个 新 的 技术 ， 早 在 20 世 纪 60 年 代 的 1BM 大 型 机 系统 中 就 曾 提出 这 个 概念 。 当 时 “虚拟 化 ”的 含义 局 限于 将 大 型 机 的 资源 在 逻辑 上 划分 给 不 同 的 应 用 程序 ， 通 过 多 任务 处 理 ， 可 在 大 
型 机 上 同时 运行 多 个 应 用 程序 和 进程 。 随 着 时 间 的 推移 ，“ 虚 拟 化 ”一 词 的 内 洱 已 经 扩展 到 对 硬件 平台 、 操 作 系统 、 人 存储 设备 与 计算 机 网 络 资源 的 抽象 、 定 义 与 资源 的 重新 整合 。 


关于 虚拟 化 的 定义 并 没有 严格 的 标准 。 下 面 给 出 一 些 典 型 定义 : 
“虚拟 化 通常 是 指 一 种 分 离 机 制 ， 即 将 服务 请 求 从 物理 层 提 供 的 服务 中 分 离 出 来 。 ”一 一 VMware 公司 
- “虚拟 化 是 资源 的 逻辑 表示 ， 它 不 受 物理 限制 的 约束 。” 一 一 IBM 公 司 


“上 讲 拟 化 是 对 物理 资源 和 位 置 的 抽象 ， 服 务 器 、 应 用 程序 、 桌 面 、 存 储 与 网 络 等 IT 资源 不 再 与 物理 设施 紧密 耦合 ， 而 是 呈现 为 逻辑 资源 ， 虚 拟 化 技术 就 是 对 物理 资源 和 逮 辑 资源 之 间 的 映射 关系 进行 
创建 和 管理 。” 一 一 EMC 公 司 


综 上 ， 虚 拟 化 技术 的 核心 就 是 对 物理 资源 的 抽象 。 在 实现 上 ， 通 过 提供 类 似 于 一 个 通用 接口 的 操作 集合 来 隐藏 物 理 层 不 同属 性 的 差异 。 
2.1.2 ”虚拟 化 产生 背景 


虚拟 化 技术 的 产生 与 发 展 是 与 大 型 机 的 发 展 和 服务 器 的 硬件 成 本 变化 息息相关 的 。20 世 纪 50 年 代 至 70 年 代 正 是 大 型 机 的 黄金 时 期 ， 但 是 大 型 机 成 本 高 晶 ， 用 户 和 厂商 都 在 探索 提高 硬件 利用 率 和 降低 成 
本 的 方法 。 在 这 一 背景 下 ，1BM 公 司 的 CP-67 软 件 率先 通过 分 区 技术 允许 多 个 应 用 程序 同时 在 大 型 机 系统 上 运行 。 尽 管 这 对 大 型 机 市 场 产生 了 巨大 的 影响 ， 但 是 毕竟 曲 高 和 嘉 ， 这 种 早期 虚拟 化 技术 无 法 对 
当时 的 业界 产生 类 似 于 今天 的 影响 。 随 着 分 布 式 计 算 和 多 用 户 操作 系统 的 逐渐 普及 ， 以 及 硬件 成 本 的 快速 下 降 ， 成 本 低廉 的 服务 器 开始 轿 露 头角 ， 大 型 机 上 的 虚拟 化 技术 开始 遇 冷 。 到 了 80 年 代 ， 大 部 分 厂 
商 基 本 放弃 了 虚拟 化 技术 ， 与 此 同时 发 展 起 来 的 计算 机 架构 自然 就 没有 包括 对 于 虚拟 化 的 支持 。 


当 进 入 20 世 纪 90 年 代 ，Windows 和 Linux 操 作 系 统 的 快速 发 展 使 得 x86 处 理 器 在 性 能 上 不 断 得 到 提升 ， 逐 渐 莫 定 了 其 行业 标准 地 位 。 然 而 随 着 基于 x86 服 务 器 和 桌面 部 署 的 增长 ， 人 们 开始 发 现 : 尽管 服 
务 器 硬件 设施 的 规模 在 不 断 扩大 ， 但 是 绝 大 多 数 服 务 器 上 都 仅仅 运行 一 个 应 用 程序 。 根 据 !IDC 统 计 ， 在 一 个 典型 的 x86 服 务 器 上 ，CPU 利 用 率 最 高 也 不 过 10%~15%。 伴 随 着 低 资 源 利用 率 ， 还 有 不 断 攀 升 的 
运 维 成 本 : 供电 、 冷 却 以 及 复杂 的 维护 管理 开销 。 由 于 系统 的 复杂 性 随 着 系统 的 规模 呈 指 数 级 增长 ，1T 维 护 逐 渐 成 为 企业 的 难题 。 特 别 是 一 些 7x24 小 时 不 间断 运营 的 业务 模式 ， 更 加 使 得 IT 维护 难度 雪上 加 


f» 
很 显然 ， 在 x86 服 务 器 上 又 重 现 了 20 世 纪 60 年 代 大 型 机 所 面临 的 同样 的 问题 : 物理 服务 器 的 资源 没有 被 充分 利用 ， 而 且 不 断 变化 的 业务 模式 使 得 这 种 状况 愈加 复杂 。 


在 这 样 的 时 代 背 景 下 ，VMware 公 司 将 虚拟 化 技术 引入 到 x86 平 台 上 。1999 年 ，Vmware 公 司 发 布 了 VMware WorkStation 的 第 一 个 版 本 ， 该 版 本 将 x8632 位 平台 进行 虚拟 化 。 不 久之 后 ，Vmware 公 
司 又 发 布 了 ESX 系 列 产 品 ， 开 创 了 x86 平 台 虚 拟 化 的 格局 。 另 一 个 虚拟 化 平台 Xen 也 在 同时 期 迅速 帮 展 。Xen 最 初 是 剑桥 大 学 实验 室 20 世 纪 90 年 代 末 的 一 个 内 部 研究 项 目 ， 在 获得 了 Linux Foundation 的 资助 
后 ， 很 快 成 为 开源 虚拟 化 系统 的 成 功 典范 ， 目 前 诸如 IBM、lntel、Redhat 等 公司 都 是 Xen 开 源 社 区 Xen.org 的 成 员 。 而 传统 的 桌面 操作 系统 巨头 微软 公司 也 于 2008 年 加 入 虚拟 化 的 阵营 ， 在 推出 Windows 
Server 2008 的 同时 推出 了 Hyper-V。Inte 上 与 AM D 等 硬件 厂商 则 在 硬件 虚拟 化 方面 为 虚拟 化 技术 推波助澜 ， 使 得 虚拟 化 技术 得 到 进一步 完善 。 


本 章 将 介绍 几 种 主要 的 虚拟 化 技术 原理 ， 以 及 CPU 虚拟 化 、 内 存 虚拟 化 与 MO 虚拟 化 技术 。 最 后 会 以 VMware 和 Xen 系 统 为 例 ， 具 体 介绍 虚拟 化 技术 的 实现 。 


2.1.3 ”计算 虚拟 化 


所 谓 计 算 虚 拟 化 ， 从 狭义 角度 可 理解 为 对 单个 物理 服务 器 的 虚拟 化 ， 主 要 包括 对 服务 器 上 的 CPU、 内 存 、I/O 设 备 进行 虚拟 化 ， 以 实现 多 个 虚拟 机 能 各 自 独立 、 相 互 隔离 地 运行 于 一 个 服务 器 之 上 。 从 广 
义 角 度 也 可 理解 为 对 网 络 中 的 CPU、 内 存 、IMO 设 备 等 资源 进行 整合 、 抽 象 和 虚拟 化 。 


本 章 我 们 主要 介绍 在 单个 服务 器 上 基于 x86 平 台 的 虚拟 化 技术 。 


如 图 2-1 所 示 ， 一 个 完整 的 服务 器 虚拟 化 平台 从 下 到 上 包括 以 下 几 个 部 分 : 


各 己 机 操作 系统 


抽象 化 的 虚拟 机 便 件 


虚拟 机 昨 控 着 
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图 2-1 虚拟 化 系统 架构 


- 底层 物理 资源 : 包括 网 卡 、CPU、 内 存 、 存 储 设 备 等 硬件 资源 ， 一 般 将 包含 物理 资源 的 物理 机 称 为 宿主 机 (Host) 。 

- 虚拟 机 监控 器 (Virtual Machine Monitor, VMM) : VMM 是 位 于 虚拟 机 与 底层 硬件 设备 之 间 的 虚拟 层 ， 直 接 运 行 于 硬件 设备 之 上 ， 负 责 对 硬件 资源 进行 抽象 ， 为 上 层 虚 拟 机 提供 虚拟 运行 环境 所 需 资 
源 ， 并 使 每 个 虚拟 机 都 能 够 互 不 干扰 、 相 互 独立 地 运行 于 同一 个 系统 中 。 

- 抽象 化 的 虚拟 机 硬件 : 即 虚拟 机 呈现 的 虚拟 化 的 硬件 设备 。 虚 拟 机 能 够 “看 到 ” 何 种 硬件 设施 ， 完 全 由 VMM 决 定 。 虚 拟 设备 可 以 是 模拟 的 真实 设备 ， 也 可 以 是 现实 世界 中 并 不 存在 的 虚拟 设备 ， 如 
VMwate 的 vmxnet 网 卡 。 

- 虚拟 机 : 相对 于 底层 提供 物理 资源 的 物理 机 ， 也 称 为 客户 机 (Guest) 。 运 行 在 其 上 的 操作 系统 则 称 为 客户 机 操作 系统 (Guest OS) 。 每 个 虚拟 机 操作 系统 都 拥有 自己 的 虚拟 硬件 ， 并 在 一 个 独立 的 虚 
拟 环 境 中 执行 。 通 过 VMM 的 隔离 机 制 ， 每 个 虚拟 机 都 认为 自己 作为 一 个 独立 的 系统 在 运行 。 


人 们 通常 认为 VMM 就 是 Hypervisor (超级 管理 程序 ) ， 但 是 在 不 同 的 虚拟 化 系统 中 ，VMM 和 Hypervisor 有 着 一 定 的 区 别 。 如 图 2-2 中 的 VMware ESX 的 产品 架构 ，Hypervisor 是 位 于 虚拟 机 和 底层 物 
理 硬 件 之 间 的 虚拟 层 ， 包 括 boot loader、x86 平 台 硬 件 的 抽象 层 以 及 内 存 与 CPU 调 度 器 ， 负 责 对 运行 在 其 上 的 多 个 虚拟 机 进行 资源 调度 。 而 VMM 则 是 与 上 层 的 虚拟 机 一 一 对 应 的 进程 ， 负 责 对 指令 集 、 内 
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存 、 中 断 与 基本 的 I/O 设 备 进行 虚拟 化 。 当 运行 一 个 虚拟 机 时 ，Hypervisor 中 的 vmkernel 会 装载 VYMM， 虚 拟 机 直接 运行 于 VMM 之 上 ， 并 通过 VMM 的 接口 与 Hypervisor 进 行 通信 。 


在 如 图 2-3 和 图 2-4 所 示 的 KYM 与 Xen 架 构 中 ， 虚 拟 层 都 称 为 Hypervisor， 不 再 有 类 似 于 ESX 中 与 虚拟 机 一 一 对 应 的 专门 提供 虚拟 化 功能 的 进程 。 为 了 统一 概念 ， 我 们 在 后 文中 将 虚拟 化 系统 中 的 虚拟 层 
统称 为 VMM。 


图 2-2 VMware ESX 产 品 架 构 


"d 
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图 2-3 ”KVM 产品 架构 


1 Control Domain 
(Dom 0) 


图 2-4 Xen 产 品 架 构 


2.1.4 VMM 的 要 求 与 基本 特征 


VMM 应 该 具备 什么 样 的 特性 来 确保 上 述 功能 呢 ? 早 在 1974 年 ，Gerald J.Popek5Robert P.Goldberg 就 在 他 们 合 著 的 论文 《Formal Requirements for Virtualizable Third Generation 
Architectures》 中 ， 对 VMM 提 出 了 三 个 需要 满足 的 条 件 : 


- SANIE (Equivalence Property) : 一 个 运行 于 VMM 控 制 之 下 的 程序 (虚拟 机 ) ， 除 了 时 序 和 资源 可 用 性 的 影响 ， 其 行为 应 该 与 相同 条 件 下 而 没有 VMM 时 的 行为 一 致 。 
- 资源 可 控 性 (Resource Control Property) : VMM 必 须 能 够 完全 控制 虚拟 化 的 资源 。 
- 效率 性 (Efficiency Property) : 除了 特权 指令 ， 绝 大 部 分 机 器 指令 都 可 以 直接 由 硬件 执行 ， 而 无 需 VMM 和 干涉 控制 。 


自从 这 三 个 条 件 被 提出 以 来 ， 就 一 直 被 认为 是 判断 一 个 VMM 是 否 能 够 有 效 确保 系统 实现 虚拟 化 的 准则 ， 并 为 设计 虚拟 化 系统 提供 指导 思想 。 


2.1.5 ”虚拟 化 平台 的 不 同 架 构 


目前 主流 的 虚拟 化 平台 主要 包含 以 下 三 种 : 宿主 模型 、Hypervisor 模 型 与 混合 模型 。 


mE (Hosted) 模型 如 图 2-5 所 示 ， 在 该 结构 中 所 有 资源 由 Windows、Linux 等 宿主 机 操作 系统 进行 管理 ，VMM 则 是 操作 系统 中 的 一 个 独立 内 核 模块 ， 借 助 宿主 机 操作 系统 的 服务 提供 虚拟 化 功能 。 虚 
拟 机 被 创建 后 作为 一 个 进程 进行 调度 。 当 VMM 拦 截 到 虚拟 机 对 1/O 设 备 的 访问 ， 会 把 I/O 请 求 转 发 给 一 个 用 户 态 级 别 监控 器 (User Level Monitor, ULM) 中 的 虚拟 设备 进行 处 理 ，ULM 则 会 通过 调用 宿主 
机 的 设备 接口 来 处 理 收 到 的 I/O 请 求 。 采 用 这 种 架构 的 主要 有 Vmware 公 司 早 期 的 虚拟 化 产品 ， 如 VMware Workstation 与 VMware Server, 


“Kernel” 


E2-5 ”宿主 模型 


Hypervisor 模 型 如 图 2-6 所 示 ， 在 该 模型 中 虚拟 层 能 够 直接 运行 于 硬件 设备 之 上 ， 控 制 系统 中 所 有 资源 能 够 灵活 实现 各 种 虚拟 设备 ， 并 直接 为 虚拟 机 提供 服务 。 相 比 于 宿主 模型 必须 借助 传统 操作 系统 实 
现 虚 拟 化 的 局 限 性 ， 该 模型 的 灵活 性 与 性 能 有 了 很 大 的 提升 。 这 种 模型 的 典型 代表 是 Vmware 公 司 的 ESX 产 品 。 


混合 (Hybrid) 模型 可 以 看 做 是 宿主 模型 与 Hypervisor 模 型 的 混合 体 (如 图 2- 7 所 示 ) 。 该 模型 一 方面 让 虚拟 层 直接 运行 于 硬件 之 上 ， 拥 有 所 有 物理 资源 ; 另 一 方面 借鉴 了 宿主 模型 中 保留 操作 系统 已 
有 的 设备 接口 的 特点 ， 将 MO 设备 的 控制 权 放 在 一 个 特殊 的 虚拟 机 (Service VM) 中 。 当 其 他 虚拟 机 要 访问 MO 设备 时 ，MO 请 求 会 被 转发 给 service VM 中 的 设备 模型 进行 处 理 。 由 于 MO 请 求 从 Hypervisor 
中 分 离 出 来 ，Hypervisor 只 负责 CPU 与 内 存 的 虚拟 化 ， 因 此 整体 系统 性 能 较 高 。 开 源 虚 拟 化 系统 Xen 与 Hyper-V 是 该 模型 的 代表 产品 。 
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2.2 ”虚拟 化 技术 分 类 


2.2.1 x86 平 台 庶 拟 化 面临 的 问题 与 挑战 


在 开始 介绍 计算 虚拟 化 之 前 ， 我 们 有 必要 先 了 解 x86 平 台 体 系 结构 与 在 虚拟 化 支持 上 的 缺陷 。 之 所 以 在 x86 平 台 上 出 现 了 众多 种 类 的 虚拟 化 技术 ， 都 是 由 于 x86 平 台 的 先天 缺陷 所 导致 的 。 


基于 x86 的 操作 系统 在 一 开始 就 被 设计 为 能 够 直接 运行 在 裸 硬 件 环 境 之 上 ， 所 以 自然 认为 其 拥有 整个 机 器 硬件 的 控制 权限 。 为 确保 操作 系统 能 够 安全 地 操作 底层 硬件 ，x86 平 台 使 用 了 特权 级 别 的 概念 对 
用 户 应 用 程序 与 操作 系统 进行 隔离 。 在 这 个 模型 下 ，CPU 提 供 了 4 个 特权 级 别 ， 分 别 是 Ring0、1、2 和 3。Ring 0 是 最 高 特权 级 别 ， 拥 有 对 内 存 和 硬件 的 直接 访问 控制 权 。Ring 1、2 和 3 权限 依次 降低 ， 无 法 


执行 限于 操作 系统 级 别 的 指令 集合 。 相 应 的 ， 运 行 于 Ring 0 的 指令 称 为 “特权 指令 ”; 运行 于 其 他 级 别 的 称 为 “非特 权 指 令 ”。 常 见 的 操作 系统 如 Linux 与 Windows 都 运行 于 Ring 0， 而 用 户 级 应 用 程序 运 
行 于 Ring 3。 如 果 低 特权 级 别 的 程序 执行 了 特权 指令 ， 会 引起 “陷入 ” (Trap) 内 核 态 ， 并 抛 出 一 个 异常 。 


当 这 种 分 层 隔离 机 制 应 用 于 虚拟 化 平台 上 ， 为 了 满足 上 述 Popek 与 Goldberg 理 论 的 “资源 可 控 性 ”原则 ，VM M 必 须 控制 所 有 的 硬件 资源 并 且 执 行 最 高 特权 系统 调用 ， 因 此 VM M 要 运行 于 最 高 特权 级 
别 上 ， 而 原先 运行 于 Ring 0 级 别 的 虚拟 机 操作 系统 则 要 被 降级 运行 。 因 此 ， 虚 拟 机 操作 系统 在 执行 特权 指令 时 都 会 3 起 “陷入 ”， 如 果 VMM 能 够 正常 捕获 异常 ， 模 拟 虚 拟 机 操作 系统 发 出 的 指令 并 进行 执 
行 ， 就 达到 了 虚拟 化 操作 系统 的 目的 。 这 就 是 IBM 的 Power 系 列 所 采用 的 特权 解除 和 陷入 模拟 的 机 制 ， 支 持 这 种 特性 的 指令 集合 通常 被 认为 是 “可 虚拟 化 的 ”。 


然而 ，x86 平 台 上 却 存在 着 特殊 的 指令 集 : “敏感 指令 ”。 敏 感 指令 是 一 组 可 影响 系统 关键 状态 的 指令 集 ， 可 在 低 特权 级 别 执行 ， 但 却 并 不 引起 “陷入 ”， 这 使 得 VM M 无 法 捕获 虚拟 机 操作 系统 的 这 类 
指令 。 如 果 不 对 这 种 情况 加 以 特殊 处 理 ， 就 会 导致 虚拟 机 系统 异常 ， 甚 至 整个 物理 系统 崩 演 。 


很 多 虚拟 化 的 工作 都 是 围绕 如 何 处 理 虚 拟 机 操作 系统 执行 敏感 指令 问题 而 展开 的 。 在 很 长 一 段 时 间 ， 都 是 通过 软件 的 方式 来 解决 这 个 问题 ， 其 中 包括 无 需 修改 内 核 的 全 虚拟 化 与 需要 修改 内 核 的 半 庶 拟 
化 。 尽 管 半 虚拟 化 要 求 修改 Guest OS 内 核 的 方式 在 一 定 程度 上 并 没有 满足 Popek 与 Goldberg 理 论 的 “等 价 性 ”要 求 ， 但 是 在 性 能 上 却 明 显 优 于 全 虚拟 化 。 直 到 2005 年 Intel 与 AMD 公 司 分 别 推出 了 VT-d 与 
AMD-V， 能 够 在 必 片 级 别 支 持 全 虚拟 化 时 ， 虚 拟 化 技术 才 得 到 彻底 完善 。 

2.2.2 ”全 虚拟 化 


全 虚拟 化 (Full Virtualization) 与 半 虚 拟 化 (Para-Virtualization) 的 划分 ， 是 相对 于 是 否 修改 Guest OS 而 言 的 。 


如 图 2-8 所 示 ， 全 虚拟 化 通过 一 层 能 够 完整 模拟 物理 硬件 环境 的 虚拟 软件 ， 使 得 Guest OSS RR WIRE THERE. Alb, Guest OS 无 需 任 何 修改 ， 虚 拟 化 的 环境 对 其 完全 透明 。 在 实现 上 ， 通 常 是 结 


合 特权 指令 的 二 进 制 翻译 机 制 与 一 般 指令 的 直接 执行 的 方式 。 具 体 来 说， 对 于 Guest OS 发 出 的 特权 指令 ，VM M 会 进行 实时 翻译 ， 并 缓存 结果 以 提高 性 能 ; 对 于 一 般 级 别 的 指令 ， 则 无 需 VMM 干 涉 ， 可 以 
直接 执行 。 
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由 于 虚拟 化 环境 对 于 运行 其 上 的 Guest Os 全 透明 ， 全 虚拟 化 模式 对 于 虚拟 机 的 迁移 以 及 可 移植 性 是 最 佳 的 解决 方案 ， 虚 拟 机 可 以 无 颖 地 从 虚拟 环境 迁移 到 物理 环境 中 。VMware 的 ESX 系 列 产品 是 全 虚 
拟 化 产品 的 代表 。 


2.2.3” 半 虚拟 化 


如 前 所 述 ，x86 平 台 上 一 直 存 在 一 些 Ring 3 级 别 可 以 执行 的 特殊 敏感 指令 ， 尽 管 全 虚拟 化 模式 通过 实时 翻译 这 些 特 殊 指令 解决 了 这 一 问题 ， 但 是 实现 开销 较 大 ， 性 能 并 不 如 在 实际 物理 机 上 运行 。 为 了 改 
善 性 能 ， 半 虚拟 化 技术 应 运 而 生 。 英 文 “Para-” 来 源 于 希腊 语 ， 意 为 “旁边 的 ”或 者 “伴随 的 ”。 因 此 “Para-Virtualization” 可 理解 为 通过 某 种 补充 的 方式 以 实现 虚拟 化 .。 
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图 2-9 ” x86 架构 的 半 虚 拟 化 


如 图 2-9 所 示 ， 半 虚拟 化 在 Guest OS 和 虚拟 层 之 间 增 加 了 一 个 特殊 指令 的 过 渡 模块 ， 通 过 修改 Guest OS 内 核 ， 将 执行 特殊 敏感 指令 替换 为 对 虚拟 层 进行 hypercall 的 调用 方式 来 达到 这 一 目的 。 同 时 ， 
虚拟 层 也 对 其 他 内 存 操作 诸如 内 人 存 管理 、 中 断 处 理 、 时 间 同 步 提供 了 hypercall 的 调用 接口 。 通 过 这 种 方式 ， 虚 拟 机 运行 的 性 能 得 以 显著 提升 。 但 是 对 于 某 些 无 法 修改 内 核 的 操作 系统 ， 则 不 能 使 其 运行 于 虚 
拟 化 环境 中 ， 由 于 需要 修改 操作 系统 内 核 ， 无 法 保证 虚拟 机 在 物理 环境 与 虚拟 环境 之 间 的 透明 切换 。 开 源 项 目 Xen 就 是 这 种 技术 的 代表 : 通过 修改 Linux 内 核 以 及 提供 MO 虚拟 化 操作 的 Domain 0 的 特殊 虚拟 
机 ， 运 行 于 Xen 之 上 的 虚拟 机 性 能 可 以 接近 运行 于 物理 环境 的 性 能 。 


2.2.4 ”硬件 虚拟 化 


所 调 “ 解 铃 还 须 系 铃 人 ”， 针 对 敏感 指令 引 友 的 一 系列 虚拟 化 问题 ， 硬 件 厂商 最 终 给 出 了 自己 的 解决 方案 。2005 年 Intel 与 AMD 公 司 分 别 推出 VT-x 和 AMD-V 技 术 。 
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图 2-10 ” x86 架构 的 硬件 虚拟 化 


如 图 2-10 所 示 ， 第 一 代 VT-x 与 AMD-V 都 试图 通过 定义 新 的 运行 模式 ， 使 Guest OS 恢复 到 Ring 0， 而 让 VM M 运 行 在 比 Ring 0 低 的 级 别 。 例 如 VT-x 中 ， 运 行 于 非 根 模式 下 的 Guest OS 可 以 像 在 非 虚拟 化 
平台 下 一 样 运行 于 Ring 0 级 别 ， 无 论 是 Ring 0 发 出 的 特权 指令 还 是 Ring 3 发 出 的 敏感 指令 都 会 被 “陷入 ”Trap) 到 根 模式 的 虚拟 层 。 这 样 就 无 需 一 进 制 翻译 和 半 虚 拟 化 来 处 理 这 些 指令 。 同 时 ，VT-x 与 
AMD-V 都 提供 了 存放 虚拟 机 状态 的 模块 ， 这 样 使 得 虚拟 机 上 下 文 切换 的 开销 大 大 降低 。 硬 件 虚拟 化 (Hardware-Assisted Virtualization) 技术 大 大 降低 了 x86 的 虚拟 化 复杂 度 。VT-x 与 AMD-V 推 出 之 后 ， 
各 个 虚拟 化 产品 皆 采 用 这 种 技术 ， 如 KVM-x86、Xen 3.0 与 VMware ESX 3.0 之 后 的 虚拟 化 产品 。 


2.25 小结 
本 节 讨 论 x86 平 台 下 的 三 种 虚拟 化 技术 ， 正 如 本 节 开 始 所 述 ， 这 三 种 技术 都 是 围绕 x86 在 虚拟 化 上 的 一 些 缺 陷 而 产生 的 。 图 2-11 对 三 种 虚拟 化 技术 进行 了 比较 。 从 图 中 可 以 看 出 ， 全 虚拟 化 与 半 虚 拟 化 的 
Guest OS 的 特权 级 别 都 被 压缩 在 Ring 1 中 ， 而 硬件 虚拟 化 则 将 Guest OS 恢复 到 了 Ring 0 级 别 ; 在 半 虚 拟 化 中 ，Guest OS 的 内 核 经 过 修改 ， 所 有 敏感 指令 和 特权 指令 都 以 Hypercall 的 方式 进行 调用 ， 而 在 


全 虚拟 化 与 硬件 虚拟 化 中 ， 则 无 需 对 Guest OS 进行 修改 ;全 虚拟 化 中 对 于 特权 指令 和 敏感 指令 采用 了 动态 二 进 制 翻译 的 方式 ， 而 硬件 虚拟 化 由 于 在 芯片 中 增加 了 根 模式 的 支持 ， 并 修改 了 敏感 指令 的 语义 
所 有 特权 指令 与 敏感 指令 都 能 够 自动 陷入 到 根 模式 的 VM M 中 。 
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图 2-11 x86 平 台 上 的 全 虚拟 化 、 半 虚拟 化 与 硬件 虚拟 化 比较 


2.3 CPU 虚拟 化 


cPU 虚 拟 化 的 一 个 很 大 挑战 就 是 要 确保 虚拟 机 发 出 CPU 指令 的 隔离 性 ， 即 为 了 能 让 多 个 虚拟 机 同时 在 一 个 主机 上 安全 运行 ，VMM 必 须 将 各 个 虚拟 机 隔离 ， 以 确保 不 会 相互 干扰 ， 同 时 也 不 会 影响 VMM 
内 核 的 正常 运行 。 尤 其 要 注意 的 是 : 由 于 特权 指令 会 影响 到 整个 物理 机 ， 必 须要 使 得 虚拟 机 发 出 的 特权 指令 仅 作 用 于 自身 ， 而 不 会 对 整个 系统 造成 影响 。 例 如 ， 当 虚拟 机 发 出 重启 命令 时 ， 并 不 是 要 重启 整 
个 物理 机 ， 而 仅仅 是 重启 所 在 的 虚拟 机 。 因 此 ，VM M 必须 能 够 对 来 自 于 虚拟 机 操作 硬件 的 特权 指令 进行 翻译 并 模拟 ， 然 后 在 对 应 的 虚拟 设备 上 执行 ， 而 不 在 整个 物理 机 硬件 设备 上 运行 。 


2.3.1 ”二进制 翻译 
二 进 制 翻译 (Binary Translation, BT) 是 一 种 软件 虚拟 化 技术 ， 由 VMware 在 ESX 产 品 中 实现 ， 在 最 初 没有 硬件 虚拟 化 的 年 代 里 ， 是 全 虚拟 化 的 唯一 途径 。 由 于 BT 最 开始 是 用 来 虚拟 化 32 位 平台 的 ， 
因此 也 称 为 BT32。 


二 进 制 翻译 ， 简 言 之 就 是 将 那些 不 能 直接 执行 的 特权 指令 进行 翻译 后 才能 执行 。 具 体 来 说 ， 当 虚拟 机 第 一 次 要 执行 一 段 指 令 代 码 时 ，VMM 会 将 要 执行 的 代码 段 发 给 一 个 称 为 “Just-In-Time” 的 BT 翻 
译 器 。 这 就 像 Java 代 码 在 执行 时 要 被 Java 虚 拟 机 实时 地 翻译 为 本 机 指令 ， 翻 译 器 将 虚拟 机 的 非特 权 指 令 翻译 成 可 在 该 虚拟 机 上 安全 执行 的 指令 子 集 ， 对 于 特权 指令 ， 则 翻译 为 一 组 在 虚拟 机 上 可 执行 的 特权 
指令 ， 而 不 是 运行 在 整个 物理 机 上 。 这 种 翻译 二 进 制 指令 的 机 制 实现 了 对 虚拟 机 的 隔离 与 封装 ， 同 时 又 使 得 x86 指 令 的 语义 在 虚拟 机 的 层次 上 得 到 保证 。 


在 执行 效率 上 ， 为 了 降低 翻译 指令 的 开销 ，VM M 会 将 执行 过 的 二 进 制 指令 翻译 结果 进行 缓 在。 如 果 虚 拟 机 再 次 执行 同样 的 指令 序列 ， 那 么 之 前 被 缓存 的 翻译 结果 可 以 被 复 用 ， 这 样 就 可 以 均衡 整个 VM 
执行 指令 集 的 翻译 开销 。 为 了 进一步 降低 由 翻译 指令 导致 的 内 存 开销 ，VMM 还 会 将 虚拟 机 的 内 核 态 代码 翻译 结果 和 用 户 态 代码 直接 绑 定 在 一 起 。 由 于 用 户 态 代码 不 会 执行 特权 指令 ， 因 此 这 种 方法 可 以 保 
证 安全 性 。 


采用 BT 机 制 的 VM M 必 须要 在 虚拟 机 的 地 址 空间 和 VMM 的 地 址 空间 之 间 进 行 严格 的 边界 控制 。VMware VMM 利 用 x86CPU 中 的 段 检查 功能 (Segmentation) 来 确保 这 一 点 。 段 功能 是 x86 平 台 在 16 
位 时 就 已 经 存在 的 硬件 特性 。 所 谓 “ 段 ”就 是 一 段 连 续 的 内 存 ， 包 括 一 个 起 始 地 址 和 相应 的 长 度 范围 。 当 一 个 x86 指 令 要 访问 内 存 时 ， 内 存 的 地 址 空间 会 与 一 个 特定 的 段 空间 进行 比较 ， 段 检查 功能 就 负责 比 
较 要 访问 的 内 存 地 址 与 段 的 地 址 是 否 冲突 。 如 果 要 访问 的 内 存 地 址 没有 越界 ， 那 么 内 存 地 址 加 上 基地 址 后 会 被 允许 访问 ; 如果 地 址 越界 ， 那 么 对 该 内 存 的 访问 就 会 被 放弃 ， 并 引发 一 个 保护 错误 


(Protection Fault) 。 
由 于 现代 操作 系统 例如 Windows、Linux 以 及 Solaris 都 很 少 使 用 段 检 查 功能 ， 因 此 VMM 可 以 使 用 段 保护 机 制 来 限制 虚拟 机 和 VM M 之 间 的 地 址 空间 边界 控制 。 在 极 少数 情况 下 ， 当 虚拟 机 的 确 使 用 了 段 
保护 机 制 并 且 引 发 了 VMM 冲 突 ，VMM 可 以 转 而 使 用 软件 的 段 检 查 机 制 来 解决 这 一 问题 。 


2.3.2 ”硬件 解决 方案 


2003 年 ， 当 AMD 公 司 将 x86 从 32 位 扩展 到 64 位 时 ， 也 将 段 检查 功能 从 64 位 必 片 上 去 除 。 同 样 的 情况 也 出 现在 Intel 公 司 推出 的 64 位 世 片 上 。 这 一 变化 意味 着 基于 BT 的 VM M 无 法 再 在 64 位 机 上 使 用 段 保 
护 机 制 保护 VMM。 换 名 话说，BT32 可 以 很 好 地 对 x8632 位 平台 进行 虚拟 化 ， 而 针对 64 位 的 BT64 却 不 能 再 在 64 位 平台 正常 工作 。 


尽管 后 来 AMD 公 司 为 了 支持 虚拟 化 又 恢复 了 64 位 芯片 的 段 检查 功能 ， 并 一 直 延 续 到 目前 所 有 的 AMD 64 位 芯片 ， 但 是 Intel 公 司 却 并 没有 简单 地 恢复 它 ， 而 是 研发 了 新 的 硬件 虚拟 化 技术 VT-x。AMD 公 
司 紧 随 其 后 也 推出 了 AMD-V 技 术 来 提供 CPU 指令 集 虚 拟 化 的 硬件 支持 。 


VT-x 与 AMD-V 尽 管 在 具体 实现 上 有 所 不 同 ， 但 其 目的 都 是 希望 通过 硬件 的 途径 来 限定 某 些 特权 指令 操作 的 权限 ， 而 不 是 原先 只 能 通过 二 进 制 动态 翻译 来 解决 这 个 问题 。 


VT-x 与 AMD-V 在 设计 理念 上 都 不 约 而 同 向 经 典 致 敬 : 采用 与 |BM360 大 型 机 实现 虚拟 化 相同 的 思路 。 两 者 都 多 许 VM 直 接 执行 CPU 的 指令 集 ， 但 当 虚 拟 机 要 执行 一 条 特权 指令 时 ， 会 引发 一 个 中 断 ， 虚 
拟 机 会 被 挂 起 并 且 CPU 会 被 分 配给 VMM。VMM 接 下 来 会 检查 引发 虚拟 机 中 断 的 CPU 指令 ， 并 根据 被 挂 起 时 所 保存 的 相关 信息 ， 模 仿 虚 拟 机 的 状态 并 执行 相应 特权 指令 ， 操 作 完毕 VMM 会 恢复 虚拟 机 的 状 
态 继续 执行 。 


这 里 以 Intel VT-x 为 例 (如 图 2-12 所 示 ) ,阐述 CPU 硬 件 虚 拟 化 的 解决 方案 。 
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图 2-12 Intel VT-x 架 构图 


首先 VT-x 定 义 了 两 种 新 的 操作 模式 ， 分 别 是 VMX 根 模式 与 VYMX 非 根 模式 ， 其 中 VMX 根 模式 即 VMM 运 行 时 所 处 模式 ; VMX 非 根 模式 则 是 虚拟 机 运行 时 模式 。 这 两 种 模式 又 都 进一步 按照 传统 的 
Ring0~3 划 分 运行 级 别 ， 其 中 非 根 模式 下 所 有 敏感 指令 都 被 重新 定义 。 当 Guest OS 试图 运行 敏感 指令 时 ， 除 了 要 检查 运行 级 别 ， 还 要 检查 当前 根 模式 ， 如 果 在 非 根 模式 下 运行 敏感 指令 ， 就 会 “陷入 ”到 根 


模式 下 由 VMM 来 模拟 运行 ， 这 在 VT-x 称 为 “VM Exit”。 相 应 的 ，VT-x 也 定义 了 “VM-Entry”， 表 示 CPU 从 根 模式 切换 到 非 根 模式 ， 通 常 由 VMM 调 度 某 个 虚拟 机 而 触发 。 


其 次 ，VT-x 引 入 了 一 个 新 的 数据 结构 : 虚拟 机 控制 结构 (Virtual Machine Control Structure, VMCS) 。VMCS 主 要 用 于 在 CPU 进行 VM EntryExit 切 换 时 ， 保 存 CPU 所 需 状态 。 使 用 VMCS 能 够 大 
大 提高 上 下 文 切换 效率 。 


最 后 ，VT-x 还 引入 了 一 组 新 的 命令 : VMLanch/VMResume 用 于 调度 Guest OS, VM Entry; VMRead/VMWrite 则 用 于 配置 VMCS。 


24 内 存 虚拟 化 
内 存 虚拟 化 即 如 何在 多 个 虚拟 机 之 间 共 享 物理 内 存 以 及 如 何 进行 动态 分 配 。 事 实 上 ， 现 代 操 作 系 统 已 经 在 这 方面 有 了 很 多 探索 。 分 配给 虚拟 机 内 存 非 常 类 似 于 操作 系统 中 关于 虚拟 内 存 的 实现 。 操 作 系 


统 负责 维护 虚 页 号 到 实 页 号 的 映射 ， 并 将 这 一 映射 信息 保存 到 页 表 (Page Table) 。 在 x86CPU 中 ， 内 存 管理 单元 (Memory Management Unit, MMU) 与 TLB (Translation Lookaside Buffer) 这 两 
个 模块 就 负责 实现 并 优化 虚拟 内 存 的 性 能 。 


OS 


Hypervisor | 


图 2-13 ”虚拟 化 下 的 三 层 内 存 映射 关系 


为 了 能 让 多 个 虚拟 机 同时 运行 于 一 个 物理 机 上 ， 还 需要 额外 一 层 内 存 虚 拟 化 。 换 句 话 说 ， 就 是 让 VMM 负 责 将 MMU 进 行 虚拟 化 ， 为 虚拟 机 操作 系统 提供 一 段 连续 的 “物理 ”地 址 空间 ， 而 操作 系统 本 身 
会 意识 到 这 种 变化 ， 仍 能 够 将 虚拟 机 虚拟 地 址 (Guest Virtual Address, GVA) 映射 到 虚拟 机 物理 地 址 (Guest Physical Address, GPA) ， 但 是 需要 VM M 将 虚拟 机 物理 地 址 映射 到 物理 机 物理 地 址 
(Host Physical Address, HPA) 。 这 样 一 来 ， 如 图 2-13 所 示 ， 虚 拟 化 系统 中 包括 三 层 内 存 : 虚拟 机 虚拟 地 址 GVA、 虚 拟 机 物理 地 址 GPA 和 物理 机 物理 地 址 HPA。 因 此 ， 原 先 由 MMU 完 成 的 逻辑 地 址 到 物 

理 地 址 的 转换 功能 已 经 不 能 发 挥 作 用 ， 必 须 由 VM M 介 入 来 完成 这 三 层 地 址 的 映射 维护 和 转换 。 


2.4.1 软件 解决 方案 


VMM 使 用 了 一 种 称 为 影子 页 表 (Shadow Page Table) 的 方式 实现 上 述 功能 。 对 于 每 个 虚拟 机 的 主页 表 (Primary Page Table) ，VMM 都 维持 一 个 影子 页 表 来 记录 和 维护 GVA 与 HPA 的 映射 天 系 。 
影子 页 表 包 括 以 下 两 种 映射 关系 : 


1) GVA 一 GPA， 庶 拟 机 操作 系统 负责 维护 从 虚拟 机 虚拟 地 址 到 虚拟 机 物理 地 址 的 映射 天 系 ，VMM 可 以 从 虚拟 机 主页 表 中 获取 。 
2) GPA 忆 HPA，VMM 负 责 维护 从 虚拟 机 物理 地 址 到 物理 机 物理 地 址 的 映射 关系 。 


通过 这 种 二 级 映射 的 方式 ， 使 用 影子 页 表 即 可 获得 GVA 一 HPA 的 映射 关系 ， 这 样 就 使 得 虚拟 机 能 够 访问 到 物理 机 的 实际 内 存 ， 同 时 又 对 虚拟 机 可 访问 的 内 存 边 界 进行 了 有 效 控制 。 同 时 ， 使 用 TLB 缓 存 
影子 页 表 的 内 容 可 以 大 大 提高 虚拟 机 访问 内 存 的 速度 。 如 图 2-14 所 示 为 影子 页 表 维 持 的 内 存 映 射 天 系 。 


VMI VM2 


Process | Process 2 Process | Process ? 


图 2-14 影子 页 表 维 持 的 内 存 映射 关系 
然而 ， 使 用 影子 页 表 也 会 总 来 如 下 开销 : 
当 虚 拟 机 要 更 新 主页 表 时 ，VMM 必 须 捕 获 这 种 更 新 ， 并 且 将 更 新 消息 同步 到 相应 的 影子 页 表 。 这 会 对 虚拟 机 的 内 存 映射 以 及 创建 新 进程 等 操作 造成 延迟 。 
当 虚 拟 机 第 一 次 访问 某 个 内 存 时 ， 影 子 页 表 也 要 按 需 创建 相应 的 映射 关系 ， 同 样 会 对 内 存 的 第 一 次 访问 造成 延迟 。 
当 虚 拟 机 发 生 进程 的 上 下 文 切 换 时 ，TLB 需 要 切换 到 新 进程 的 影子 页 表 ， 同 样 需要 VMM 介 入 。 


. 最后， 影子 页 表 也 消耗 额外 的 内 存 。 
24.2 ”硬件 解决 方案 


为 了 解决 实现 影子 页 表 导 致 的 上 述 开销 问题 ，Intel 与 AMD 公 司 都 针对 MMU 虚 拟 化 给 出 了 各 自 的 解决 方案 : Intel 公 司 在 Nehalem 微 架构 CPU 中 推出 扩展 页 表 (Extended Page Table, EPT) 技术 ; 
AMD 公 司 在 四 核 刚 龙 CPU 中 推出 快速 虚拟 化 索引 (Rapid Virtualization Index, RVI) 技术 。 


RVI 与 EPT 尽 管 在 具体 实现 细节 上 有 所 不 同 ， 但 是 在 设计 理念 上 却 完全 一 致 : 通过 在 物理 M MU 中 保存 两 个 不 同 的 页 表 ， 使 得 内 存 地 址 的 两 次 映射 都 在 硬件 中 完成 ， 进 而 达到 提高 性 能 的 目的 。 有 具体 来 说 
MMU 中 管理 了 两 个 页 表 ， 第 一 个 是 GVA 一 GPA， 由 虚拟 机 决定 ; 第 二 个 是 GPA 一 HPA， 对 虚拟 机 透明 ， 由 VM M 决 定 。 根 据 这 两 个 映射 页 表 ，CPU 中 的 page walker 就 可 以 生成 最 近 访 问 过 的 
<GVA，HPA> 对 值 ， 并 缓存 在 TLB 中 。 


另外 ， 原 来 在 影子 页 表 中 由 VMM 维 持 的 GPA 一 HPA 了 映射 关系， 则 由 一 组 新 的 数据 结构 扩展 页 表 (Extended Page Table， 也 称 为 Nested Page Table) 来 保存 。 由 于 GPA 一 HPA 的 映射 天 系 非 常 稳 
定 ， 并 在 虚拟 机 创建 或 修改 页 表 时 无 需 更 新 ， 因 此 VMM 在 虚拟 机 更 新 页 表 的 时 候 无 需 进行 干涉 。VMM 也 无 需 参与 到 虚拟 机 上 下 文 切换 ， 虚 拟 机 可 以 自己 修改 GVA-~GPA 的 页 表 。 


24.3 内存 虚拟 化 管理 面临 的 挑战 


在 虚拟 化 环境 中 ， 内 存 是 保证 虚拟 机 工作 性 能 的 关键 因素 。 尽 管 传统 操作 系统 对 于 内 存 管理 已 经 探索 出 了 很 多 行 之 有 效 的 方法 ， 但 是 在 虚拟 化 环境 中 ， 如 何 尽 可 能 提高 虚拟 机 的 性 能 、 提 高 内 存 利用 
率 、 降 低 虚 拟 机 上 下 文 切 换 的 内 存 开销 ， 依 然 存在 着 非常 复杂 的 问题 。 


针对 这 些 问题 ， 需 要 从 虚拟 机 中 的 应 用 程序 、 虚 拟 机 操作 系统 、VMM 这 三 个 角度 来 理解 其 各 自 对 内 人 存 的 需求 与 管理 方法 。 
: 对 于 运行 于 虚拟 机 上 的 应 用 程序 来 说 ， 在 其 运行 过 程 中 ， 会 通过 操作 系统 明确 地 请 求 分 配 和 释放 内 存 。 


. 对 于 虚拟 机 操作 系统 来 说 ， 在 非 虚拟 化 环境 下 ， 操 作 系 统 对 于 整个 物理 内 存 都 有 控制 权 。 因 此 ， 硬 件 无 需 再 为 操作 系统 提供 申请 内 存 分 配 和 释放 的 接口 。 操 作 系统 通过 自己 的 方式 来 区 分 哪些 内 存 是 
已 经 分 配 出 去 的 ， 哪 些 是 可 用 的 ， 比 如 操作 系统 可 以 分 别 维护 “已 分 配 ” 内 存 列表 和 “未 分 配 ” 内 存 列 表 来 管理 内 存 页 面 的 分 配 。 


“ 对 于 VMM 来 说 ， 由 于 其 管理 的 虚拟 机 操作 系统 不 能 通过 特定 接口 申请 内 存 ， 因 此 VMM 需 要 监测 虚拟 机 对 内 存 的 访问 ， 并 在 其 第 一 次 访问 内 存 时 进行 一 次 性 内 存 分 配 。 为 了 避免 虚拟 机 之 间 信 息 泄 
露 ，VMM 会 在 内 存 分 配 之 前 将 内 容 清 零 。 


尽管 VMM 可 以 很 容易 地 知道 何 时 该 给 虚拟 机 分 配 物理 内 存 ， 却 并 不 知道 何 时 将 其 回收 。 这 是 因为 虚拟 机 在 刚刚 启动 并 要 访问 内 存 页 面 时， 会 引发 一 个 页 面 错误 (Page Fault) ， 而 这 个 错误 可 以 很 容 
易 被 VYMM 所 捕获 ， 因 此 VMM 可 以 在 虚拟 机 启动 时 分 配 内 存 。 然 而 ， 尽 管 虚拟 机 运行 过 程 中 会 不 断 释放 内 存 ， 但 由 于 操作 系统 维持 的 “未 分 配 ” 内 存 列 表 并 不 能 直接 访问 ， 所 以 VYMM 很 难 确定 虚拟 机 何 时 
释放 了 内 存 ， 以 及 哪些 内 存 是 回收 的 。 


尽管 VM M 无 法 获知 哪些 内 存 已 经 被 虚拟 机 操作 系统 释放 ， 这 并 不 意味 着 物理 机 的 内 存 会 被 虚拟 机 频繁 的 内 人 存 申请 与 释放 操作 所 消耗 。 因 为 VM M 不 会 在 虚拟 机 每 次 申请 内 存 时 都 满足 其 请 求 ， 而 只 有 在 
虚拟 机 访问 了 之 前 从 未 访问 过 的 内 存 页 面 时 ，VMM 才 会 给 其 分 配 内 存 。 如 果 虚 拟 机 一 直 在 频繁 地 申请 分 配 和 释放 内 人 存 ， 实 际 上 是 在 其 可 见 的 物理 内 存 范围 内 进行 的 。 这 就 意味 着 VMM 仅 需 一 次 性 分 配给 虚 
拟 机 内 存 ， 虚 拟 机 操作 系统 就 完全 可 以 通过 自身 内 存 管理 机 制 重用 它 。 


关于 具体 内 存 虚 拟 化 管理 的 机 制 我 们 会 在 2.6 节 结合 ESX 与 Xen 的 实例 进行 阐述 。 


25 ”I/O 虚拟 化 


随 着 CPU 在 虚拟 化 平台 上 的 利用 率 越 来 越 高 ， 从 部 署 虚拟 化 之 前 的 10% 跃 进 至 70%， 人 们 发 现 ，MO 成 为 制约 系统 性 能 进一步 扩展 的 瓶颈 。 更 高 的 CPU 利用 率 意 味 着 虚拟 机 中 的 应 用 程序 能 够 被 更 快 地 
处 理 ， 但 同时 也 会 使 得 数据 的 产生 速率 越 来 越 快 ， 并 有 越 来 越 多 的 数据 等 待 处 理 ， 最 终 导 致 物理 平台 有 限 的 I/O 通 道上 出 现 严 重 的 拥塞 。 可 以 想象 ， 网 络 通信 、 存 储 数据 流量 以 及 服务 器 内 部 各 个 虚拟 机 通信 
产生 的 消息 都 会 导致 服务 器 MO 通 道 的 负载 越 来 越 重 。IMO 拥 塞 最 终 成 为 系统 的 短 板 ，CPU 经 常 因为 等 待 数据 而 进入 空闲 状态 。 


尽管 可 以 为 物理 平台 装 上 更 多 的 网 卡 、HBA 卡 ， 配 置 更 高 的 网 络 带宽 或 者 线 绕 ， 但 是 有 限 的 揪 权 个 数 也 严重 限制 了 系统 的 可 扩展 性 ， 同 时 也 使 得 虚拟 化 环境 中 |T 管 理 变 得 更 为 复杂 ， 维 护 成 本 也 随 之 上 
升 ， 而 且 这 并 不 符合 虚拟 化 的 最 初 目 标 : 实现 逻辑 设备 与 物理 设备 的 分 离 ， 提 高 资源 利用 率 ; 简化 IT 管理 ;降低 1T 运 维 成 本 。 


因此 ， 如 何 将 服务 器 上 的 物理 设备 虚拟 化 为 多 个 逻辑 设备 ， 并 将 物理 设备 与 逻辑 设备 解 厢 ， 使 虚拟 机 可 以 在 各 个 虚拟 化 平台 间 无 缝 迁移 ， 正 是 |/O 虚 拟 化 的 目标 。 


I/O 庶 拟 化 在 具体 实现 上 与 CPU 和 内 存 虚 拟 化 一 样 ， 分 为 软件 与 硬件 虚拟 化 ， 在 被 虚拟 机 访问 的 方式 上 ， 又 分 为 共享 模式 与 直接 访问 模式 。 软 件 |/O 虚 拟 化 通过 软件 模拟 设备 的 方式 ， 使 得 I/O 设 备 资源 
能 够 被 多 个 虚拟 机 共享 ， 该 方式 可 使 MO 设备 的 利用 率 得 到 极 大 的 提高 ， 并 且 可 以 做 到 物理 设备 与 逻辑 设备 分 离 ， 具 有 良好 的 通用 性 ， 但 由 于 该 方式 需要 VMM 的 介入 而 导致 多 次 上 下 文 切换 ， 使 得 MO 性 能 
受到 影响 。 为 了 改善 /O 性 能 ， 旨 在 简化 MO 访问 路 径 的 设备 直接 访问 方式 又 被 提 了 出 来 。 代 表 技 术 为 Intel 公 司 提出 的 VT-d 与 AMD 公 司 的 IOMMU 技 术 。 尽 管 这 两 种 技术 在 一 定 程度 上 提高 了 IMO 访 问 性 能 ， 
但 代价 却 是 限制 了 系统 的 可 扩展 性 。 目 前 PCI-S1G 提 出 的 SR-IOV 与 MR-IOV 是 平衡 WO 虚拟 化 通用 性 、 访 问 性 能 与 系统 可 扩展 性 的 很 好 的 解决 方案 。 


接 下 来 我 们 分 别 讨论 基于 软件 的 MO 虚拟 化 与 基于 硬件 的 MO 虚拟 化 。 


2.5.2 ”基于 软件 的 VO 虚 拟 化 


在 介绍 软件 MO 虚拟 化 之 前 ， 先 分 析 一 下 完成 一 个 典型 的 MO 访问 需要 的 操作 流程 。 


首先 ， 虚 拟 机 的 操作 系统 必须 能 够 识别 出 VM M 人 允许 其 可 发 现 的 虚拟 设备 。 在 虚拟 机 运行 中 ， 其 上 的 某 个 应 用 程序 通过 内 部 驱动 程序 发 起 了 一 个 MO 请 求 ，VMM 会 以 某 种 方式 截获 这 个 I/O 请 求 ， 然 后 通 
过 软件 的 方式 模拟 真实 设备 对 于 |/O 请 求 的 响应 效果 。 这 个 过 程 中 ， 虚 拟 机 对 于 设备 是 否 真 实 存在 并 不 关心 ， 底 层 细节 对 于 虚拟 机 的 操作 系统 和 驱动 程序 完全 透明 。 


概括 上 面 的 流程 ， 我 们 会 发 现 完成 一 个 |/O 操 作 需 要 以 下 几 个 关键 环节 : 


1. 设 备 发 现 


所 谓 设备 发 现 就 是 VM M 必 须 采取 某 种 方式 ， 使 得 虚拟 机 能 够 发 现 虚 拟 设备 ， 这 样 ， 虚 拟 机 才能 够 加 载 相应 的 驱动 程序 。 


在 没有 虚拟 化 的 系统 中 ， 由 BIOS 或 者 操作 系统 通过 遍历 PCI 总 线 上 的 所 有 设备 完成 设备 发 现 过 程 ， 而 在 虚拟 化 系统 中 ， 则 由 VMM 决 定向 虚拟 机 呈现 哪些 设备 。 具 体 过 程 要 根据 设备 是 否 存在 于 物理 总 线 
上 来 进行 。 

对 于 一 个 真实 人 存在 于 物理 总 线 的 设备 ， 如 果 是 不 可 枚 举 的 类 型 ， 例 如 Ps/2 键 盘 ， 由 于 这 类 设备 是 硬 编码 固定 的 ， 驱 动 程序 会 通过 其 特定 的 访问 方式 来 检查 设备 是 否 存在 ， 因 此 VMM 只 要 在 相应 端口 上 
模拟 出 该 设备 ， 虚 拟 机 即 可 成 功 检 测 到 它 ; 如果 是 可 枚 举 的 类 型 ， 壁 如 PCI 设 备 或 者 PCIl-Express 设 备 ， 这 种 设备 通常 定义 了 完整 的 设备 发 现 方法 ， 并 人 允许 BIOS 或 者 操作 系统 在 设备 枚 举 过 程 中 通过 PCl 配 置 
空间 对 其 资源 进行 配置 。 因 此 VMM 不 仅 要 模拟 这 些 设备 本 身 的 逻辑 ， 还 要 模拟 PCI 总 线 的 一 些 属 性 ， 包 括 总 线 拓 扑 关 系 及 相应 设备 的 PCI 配 置 空间 ， 以 便 虚 拟 机 OS 在 启动 时 能 够 发 现 这 些 设备 。 

VMM 不 仅 可 以 模拟 真实 设备 ， 还 可 以 模拟 真实 世界 中 并 不 存在 的 虚拟 设备 。 由 于 这 类 设备 并 没有 现实 中 的 规范 与 之 相对 应 ， 因 此 完全 由 VM M 决 定 它们 的 总 线 类 型 。 该 虚拟 设备 可 以 挂 载 在 已 有 PCI 总 


线 上 ， 也 可 以 完全 自 定义 一 套 新 的 总 线 。 使 用 已 有 PCI 总 线 的 好 处 是 保持 了 兼容 性 ， 虚 拟 机 操作 系统 可 以 重用 已 有 的 总 线 驱 动 程序 发 现 虚拟 设备 ; 若 使 用 自 定 义 的 新 总 线 ， 则 必须 在 虚拟 机 中 加 载 特殊 的 总 线 
驱动 程序 ， 这 无 形 中 增加 了 虚拟 机 在 不 同类 型 虚拟 化 平台 迁移 的 复杂 性 。 


2. 访 问 截 获 


虚拟 机 操作 系统 发 现 虚 拟 设备 之 后 ， 虚 拟 机 上 的 驱动 程序 就 会 按照 特定 接口 访问 这 个 虚拟 设备 。 驱 动 程 序 对 于 接口 的 调用 必须 能 够 被 VMM 截 获 ， 并 能 按照 真实 设备 的 行为 进行 模拟 。 


以 分 配 到 端口 MO 资源 的 设备 为 例 ， 由 于 CPU 对 于 端口 MO 资源 的 控制 与 指令 流 所 处 的 特权 级 别 和 相关 的 MO 位 图 有 关 ， 而 在 虚拟 化 环境 中 虚拟 机 OSs 又 被 降级 到 非特 权 级 别 ， 因 此 Os 能 否 访问 设备 的 MO 
端口 就 完全 由 MO 位 图 决定 。 对 于 没有 直接 分 配给 虚拟 机 的 设备 ，VMM 就 可 以 把 它 的 MO 端口 在 /MO 位 图 中 关闭， 当 虚 拟 机 操作 系统 在 访问 该 端口 时 ， 就 会 抛 出 一 个 保护 异常 ，VMM 即 可 获得 异常 原因 ， 并 
进而 将 请 求 发 送 给 底层 设备 模拟 器 进行 模拟 ; 如 果 该 设备 是 直接 分 配给 虚拟 机 ， 那 么 VMM 就 可 以 在 MO 位 图 中 打开 它 的 MO 端口 ， 这 样 虚拟 机 驱动 程序 就 可 以 直接 访问 该 设备 。 


同 理 ， 对 于 分 配 到 MMIO (Memory Mapped MO) 资源 的 设备 ， 由 于 M MIO 是 系统 物理 地 址 空间 的 一 部 分 ， 物 理 地 址 空间 由 页 表 管 理 ， 因 此 VMM 同 样 可 以 通过 控制 M MIO 相 应 的 页 表 项 是 否 有 效 来 
截获 虚拟 机 操作 系统 对 于 M MI1O 资 源 的 访问 。 
3. 设 备 模拟 


至 于 模拟 设备 的 功能 ， 则 十 分 灵活 。 对 于 像 PS/2 键 盘 、 鼠 标 这 样 的 设备 ，VMM 需 要 根据 设备 的 接口 规范 模拟 设备 的 所 有 行为 ， 才 能 够 无 需 修 改 驱动 就 在 虚拟 机 上 展现 出 设备 应 有 的 效果 。 而 对 于 磁盘 
存储 系统 ， 则 不 必 受 限于 实际 的 磁盘 控制 器 以 及 具体 磁盘 类 型 和 型 号 。 举 例 来 说 ， 对 1DE 虚 拟 化 时 ， 底 层 可 以 是 一 块 磁盘 ， 可 以 是 一 个 分 区 ， 也 可 以 是 不 同 格式 的 文件 ; 然后 在 其 上 实现 一 个 专门 的 块 设备 抽 
RE, 最 后 在 块 设备 上 使 用 文件 格式 ， 并 引入 一 些 真实 硬件 没有 的 高 级 特性 ， 例 如 加 密 、 备 份 、 增 量 存 储 等 。 


上 述 三 个 环节 仅 是 VMM 处 理 一 个 虚拟 机 所 发 出 MO 请 求 的 流程 ， 然 而 ， 系 统 的 物理 设备 需要 同时 接受 来 自 多 个 虚拟 机 的 MO 请 求 。 因 此 ，VMM 还 要 将 多 个 虚拟 机 的 MO 请 求 合 并 为 单独 一 个 MO 数据 流 发 
送 给 底层 设备 驱动 。 当 VM M 收 到 来 自 底层 设备 驱动 完成 |/O 请 求 的 中 断 时 ，VMM 还 要 能 够 将 中 断 转发 给 正确 的 虚拟 机 ， 以 通知 其 |/O 操 作 结 束 。 同 时 VMM 在 调度 各 个 虚拟 机 友 送 来 的 |/O 请 求 处 理 时 ， 必 
须 依据 一 定 的 算法 确保 虚拟 机 MO 的 Qos 与 设备 共享 的 公平 性 。 


在 实现 架构 上 ， 软 件 VO 虚 拟 化 技术 主要 包括 Hypervisor 架 构 和 前 端 /后 端 架构 : 
(1) Hypervisor 架 构 


如 图 2-15 所 示 ，Hypervisor 架 构 的 I/O 模 型 主要 包括 客户 端 驱动 程序 、 虚 拟 设备 、 庶 拟 |/O 协 议 栈 以 及 真正 与 底层 设备 交互 的 驱动 程序 和 物理 设备 。 在 这 个 架构 中 ，VMM 需 要 在 虚拟 设备 中 完全 模拟 各 
种 MO 设备 的 所 有 接口 ，MO 虚 拟 协议 栈 则 负责 将 客户 机 的 端口 MO 或 者 MMI1O 地 址 映射 到 物理 机 的 地 址 空间 ， 当 虚拟 机 发 起 MO 操 作 时 ，VM M 会 截获 MO 请 求 ， 同 时 将 来 自 于 多 个 虚拟 机 的 MO 请 求 按照 优先 
级 调度 并 进行 复 用 (Multiplexing) 再 转发 给 底层 驱动 程序 。 


图 2-15 ”Hypervisor 架 构 


通过 这 种 方式 ， 虚 拟 设备 可 以 和 物理 设备 在 逻辑 上 分 离 ， 虚 拟 机 可 以 透明 地 在 不 同 的 物理 机 之 间 迁 移 。 由 于 I/O 设 备 需 要 在 多 个 客户 机 之 间 共 享 ， 因 此 需要 VMM 介 入 来 保证 多 个 虚拟 机 对 设备 访问 的 合 
法 性 和 一 致 性 ， 这 就 导致 了 虚拟 机 的 每 次 VO 请 求 都 需要 VMM 的 介入 。 


采用 这 种 架构 的 典型 代表 就 是 VMware ESX 与 Workstation。 


(2) 前 端 /后 端 架构 


前 端 /后 端 架构 也 称 为 “Split l/O" ， 即 将 传统 的 MO 驱动 模型 分 为 两 个 部 分 (如 图 2-16 所 示 ) ， 一 部 分 是 位 于 客户 机 OS 内 部 的 设备 驱动 程序 (前 端 ) ， 该 驱动 程序 不 会 直接 访问 设备 ， 所 有 的 |/O 设 备 
请 求 会 转发 给 位 于 一 个 特殊 虚拟 层 的 驱动 程序 (后 端 ) ， 后 端 驱动 可 以 直接 调用 物理 I/O 设 备 驱动 访问 硬件 。 前 端 驱动 负责 接收 来 自 其 他 模块 的 /O 操 作 请 求 ， 并 通过 虚拟 机 之 间 的 事件 通道 机 制 将 MO 请 求 
转发 给 后 端 驱 动 。 后 端 在 处 理 完 请 求 后 会 异步 地 通知 前 端 。 相 比 于 Hypervisor 架 构 中 VMM 需 要 截获 每 个 |/O 请 求 并 多 次 上 下 文 切换 的 方式 ， 这 种 基于 请 求 /事务 的 方式 能 够 在 很 大 程度 上 减少 上 下 文 切换 的 
频率 ， 并 降低 开销 。 但 是 ， 这 种 方式 也 存在 着 明显 的 缺点 ， 即 需要 修改 虚拟 机 的 操作 系统 和 驱动 程序 ， 以 达到 前 后 端 协同 工作 的 效果 ， 因 此 无 法 支持 不 开源 的 操作 系统 。 


采用 这 种 架构 的 虚拟 化 产品 代表 是 Xen、KVM 及 支持 半 虚 拟 化 的 VMware ESX 与 Workstation。 


2.5.3 ”基于 硬件 的 MO 虚拟 化 


由 于 软件 设备 模拟 导致 了 频繁 的 上 下 文 切换 ， 致 使 整个 系统 的 性 能 下 降 ， 因 此 人 们 和 希望 能 够 绕 过 VM M 让 虚拟 机 直接 访问 底层 物理 设备 以 提高 MO 性 能 。 这 就 是 “设备 透 传 ”方式 ， 如 图 2-17 所 示 。 由 于 
虚拟 机 驱动 程序 可 以 无 颖 地 操作 目标 设备 ，VM M 再 无 需 模拟 设备 ， 因 此 Il/O 访 问 性 能 得 到 很 大 的 提高 。 


Yee Seer ee 


JUGS XJ 


图 2-17 ”设备 透 传 的 方式 


采用 了 设备 透 传 方式 的 技术 主要 有 : Intel 公 司 提出 的 VT-d 与 PCl-SIG 公 司 提出 的 SR-IOV 和 MR-IOV。 


1.VT-d: MO 设备 的 直接 分 配 
为 了 能 使 虚拟 机 直接 访问 设备 ， 有 以 下 两 种 方式 可 以 选择 : 
1) 让 虚拟 机 直接 访问 物理 设备 的 Il/O 地 址 空间 (包括 端口 /O 和 MMIO) 。 
2) 让 设备 的 DMA 操 作 直 接 映 射 到 虚拟 机 的 内 存 空间 。 


对 于 第 一 种 方式 ，Intel 公 司 的 CPU 虚 拟 化 技术 VT-x 可 以 在 VMCS 中 通过 适当 配置 |/O 位 图 ,使 得 虚拟 机 的 I/O 访 问 不 引发 VM-Exit 而 陷入 VMM 中 ， 从 而 虚拟 机 可 以 直接 访问 设备 的 |/O 地 址 空间 。 对 于 第 
二 种 方式 ， 设 备 进行 DMA 操 作 时 ， 完 全 按照 驱动 程序 告知 的 物理 地 址 进行 数据 读 写 ， 然 而 驱动 程序 中 的 地 址 却 是 虚拟 机 的 物理 地 址 ， 设 备 DMA 操 作 的 地 址 空间 则 是 真实 机 器 地 址 ， 因 此 对 于 第 二 种 方式 需 
要 解决 的 问题 就 是 在 DMA 操 作 时 能 将 虚拟 机 物理 地 址 转换 为 物理 机 机 器 地 址 。 


Intel 公 司 提出 的 VT 系 列 技术 中 VT-d 较 好 地 解决 了 这 个 问题 。 其 目的 就 是 让 虚拟 机 直接 访问 物理 机 底层 MO 设备 ， 使 虚拟 机 能 够 使 用 自己 的 驱动 直接 操作 MO 设备 ， 而 无 需 VMM 的 介入 和 干涉 。 通 过 引入 
DMA 重 映射 (DMA Remapping) ，VT-d 不 仅 可 以 使 虚拟 机 直接 访问 设备 ， 同 时 还 提供 了 一 种 安全 隔离 机 制 ， 防 止 其 他 虚拟 机 或 者 VMM 访 问 分 配给 指定 虚拟 机 的 物理 内 存 。 
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图 2-18 VT-d 中 北桥 DMA 重 映射 方式 


具体 来 说 ， 如 图 2-18 所 示 ，VT-d 技 术 在 北桥 引入 了 DMA 重 映射 技术 ， 并 通过 两 种 数据 结构 (Root Entry 和 Context Entry， 详 见 本 节 后 面 的 介绍 ) 维护 了 设备 的 |/O 页 表 。 设 备 上 的 DMA 操 作 都 会 被 
DMA 重 映射 硬件 截获 ， 并 根据 对 应 的 MO 页 表 对 DMA 中 的 地 址 进行 转换 ， 同 时 也 会 对 要 访问 的 地 址 空间 进行 控制 。 


VT-d 还 为 DMA 重 映射 提供 了 安全 隔离 的 保障 。 图 2-19 是 没有 VT-d 技 术 与 有 VT-d 技 术 的 虚拟 化 平台 的 对 比 。 可 以 看 出 ， 图 2-19a 没 有 VT-d 虚 拟 化 技术 的 平台 中 ， 物 理 设备 的 DMA 操 作 可 以 访问 整个 系 
统 内 存 。 而 图 2-19b 有 VT-d 技 术 的 平台 中 ， 对 设备 DMA 操 作 的 地 址 范围 进行 了 限制 ， 只 能 访问 指定 的 地 址 空间 。 
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a) b) 
图 2-19 没有 VT-d 与 有 VI-d 的 DMA 访 问 方式 


在 具体 实现 上 ，VT-d 使 用 PCI 总 线 中 的 设备 描述 符 BDF (Bus Device Function) 来 标示 DMA 操 作 发 起 者 的 标示 符 。 其 次 ，VT-d 使 用 两 种 数据 结构 来 描述 PCI 总 线 结构 ， 分 别 是 根 条 目 (Root Entry) 
和 上 下 文 条 目 (Context Entry) ， 如 图 2-20 所 示 ， 其 中 根 条 目 用 于 描述 PCI 总 线 。 由 于 PCI 总 线 个 数 可 以 达到 256 个 ， 因 此 根 条 目的 范围 是 0~255， 其 中 每 个 根 条 目的 一 个 指针 字段 都 指向 该 总 线 的 所 有 PCI 
设备 的 上 下 文 条 目 表 指针 (Context Table Pointer, CTP) 。 由 于 一 个 PCI 总 线 可 以 包含 256 个 设备 ， 因 此 上 下 文 条 目 表 的 范围 是 0~255。 在 每 个 上 下 文 条 目 中 都 包含 两 个 重要 字段 : 地 址 空间 根 (Address 
Space Root, ASR) 指向 该 设备 的 MO 页 表 ; 域 标示 符 (Domain ID, DID) 可 以 理解 为 唯一 标示 一 个 虚拟 机 的 标示 符 。 


基于 这 种 方式 ， 当 某 一 个 设备 发 起 DMA 操 作 及 被 DMA 重 映射 硬件 截获 时 ， 通 过 该 设备 的 BDF 中 的 Bus 字 段 ， 可 以 找到 其 所 在 的 根 条 目 ， 根 据 device 和 function 字 段 ， 可 以 索引 到 具体 设备 的 上 下 文 条 
目 。 这 样 就 可 根据 上 下 文 条 目 中 的 AsR 字 段 找到 该 设备 的 /O 页 表 ， 再 通过 DMA 重 映射 硬件 将 MO 请 求 的 GCPA 转 换 为 MPA， 从 而 达到 设备 直接 访问 虚拟 机 内 存 的 目的 。 


使 用 VT-d 将 设备 直接 分 配给 虚拟 机 的 MO 访问 性 能 十 分 接近 无 虚拟 化 环境 下 的 MO 访问 性 能 ， 然 而 VT-d 事 实 上 是 一 种 MO 设备 被 虚拟 机 独占 的 方式 ， 这 种 方式 牺牲 了 虚拟 化 平台 中 的 设备 共享 能 力 ， 设 备 
利用 率 大 大 降低 ， 而 且 系 统 的 可 扩展 性 受到 物理 平台 插 槽 个 数 的 限制 。 举 例 来 说 ， 假 定 一 个 服务 配置 4 个 CPU， 每 个 CPU 为 8 核 ， 按 照 经 典 分 配方 式 每 个 虚拟 机 一 个 核 ， 则 可 以 创建 32 个 虚拟 机 ， 如 果 按 照 设 
备 直 接 访问 的 方式 分 配 网 卡 ， 则 需要 32 个 物理 揪 槽 。 
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总 线 0 的 上 下 文 条 目 素 地 址 转换 结构 


图 2-20 VT-d 中 用 于 描述 PCI 总 线 结 构 的 Root Entry 与 Context Entry 
2.SR-IOV 与 MR-IOV: PCle 的 虚拟 化 


如 前 所 述 ， 软 件 设备 模拟 尽管 实现 了 物理 与 逻辑 的 分 离 ， 但 是 性 能 受到 影响 ; VT-d 或 者 OMMU (MO Memory Management Unit) 技术 则 以 牺牲 系统 扩展 性 为 代价 获得 近似 于 直接 访问 设备 的 MO 
性 能 ， 而 且 其 中 任何 一 种 都 不 是 基于 现 有 的 工业 标准 。 因 此 ， 工 业界 希望 重新 设计 一 种 可 以 原生 共享 的 设备 。 具 有 原生 共享 特性 的 设备 可 同时 为 多 个 虚拟 机 提供 单独 的 内 存 空间 、 工 作 队列 、 中 断 与 命令 处 
理 ， 使 得 设备 的 资源 能 够 在 多 个 虚拟 机 之 间 共 享 。 同 时 ， 这 些 设 备 能 够 从 多 个 源 端 同时 接收 命令 ， 并 将 其 合并 再 一 起 发 送出 去 。 因 此 ， 原 生 共 享 设备 不 需要 VMM 模 拟 设 备 ， 同 时 也 在 硬件 层次 上 使 得 多 个 
虚拟 机 同时 访问 设备 ， 很 好 地 兼顾 了 虚拟 化 系统 的 性 能 与 可 扩展 性 。 


针对 如 何 创建 原生 共享 设备 ，PCI-S1G 组 织 提 出 了 一 个 新 的 技术 规范 : SR-IOV (Single Root I/O Virtualization) 。 该 规范 定义 了 一 个 单 根 设备 (如 一 个 以 太 网 卡 端口 ) 如 何 呈 现 为 多 个 虚拟 设备 。 在 
SR-IOV 中 ， 定 义 了 两 个 功能 类 型 : 


: 物理 功能 (Physical Function, PF) : 能 够 支持 SR-IOV 扩 展 功能 的 PCIe 功 能 ，PCIe 扩 展 功能 用 于 配置 和 管理 SR-IOV 功 能 。 
- 虚拟 功能 (Virtual Function, VF) : “ 轻 量 级 ”的 PCIe 功 能 ， 这 些 功能 包含 了 用 于 数据 传输 所 必须 但 同时 被 精简 过 的 配置 资源 。 


图 2-21 给 出 了 一 个 支持 SR-IOV 的 网 卡 配 置 。 其 中 左 侧 三 个 VM 是 通过 VF 可 以 直接 分 配 到 的 网 卡 资源 ， 而 该 网 卡 的 PF 所 具有 的 完整 资源 仍 能 用 于 最 右 侧 两 个 虚拟 机 对 模拟 设备 的 访问 路 径 。 
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图 2-21 支持 SR-IOV 的 网 卡 配置 示例 


如 图 2-22 所 示 ， 一 个 具备 SR-IOV 特 性 的 设备 通过 VM M 配 置 可 以 在 PCI 配 置 空间 中 呈现 为 多 个 VF， 每 个 VF 都 有 配置 了 基地 址 寄存 器 (Base Address Register, BAR) 的 完整 配置 空间 。VMM 通 过 将 一 
个 或 多 个 VF 的 配置 空间 映射 到 虚拟 机 的 PCI 配 置 空间 中 实现 VF 的 分 配 。 结 合 Intel VT-d 内 存 映 射 等 技术 ， 虚 拟 机 可 以 直接 访问 VF 的 内 存 空间 ， 这 就 能 绕 过 VM M 直 接 访问 MO 设备 了 。 
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图 2-22 SR-IOV 的 PF 与 VE 的 映射 


SR-IOV 还 实现 了 地 址 转换 服务 (Address Translation Service, ATS) 来 提供 更 好 的 性 能 。 通 过 缓存 TLB 到 本 地 ，MO 设 备 可 以 在 发 起 PCI 事 务 之 前 直接 对 DMA 地 址 进行 转换 ， 这 样 就 避免 了 在 IOMMU 
中 进行 地 址 转换 时 可 能 发 生 的 缺 页 情况 。 通 过 这 种 方式 ， 绑 定 到 VF 的 虚拟 机 可 以 获得 与 基于 硬件 MO 虚拟 化 虚拟 机 接近 的 性 能 。 但 是 与 基于 硬件 MO 虚拟 化 较 低 的 可 扩展 性 相 比 ， 一 个 SR-IOV 设 备 可 以 具有 
几 百 个 VF， 因 此 SR-IOV 具 有 更 好 的 可 扩展 性 。 目 前 SR-IOV 规 范 的 最 新 版 本 是 1.1 版 ,具体 可 以 参考 文献 [14。 


MR-IOV (Multiple Root MO Virtualization) 扩展 了 SR-IOV 规 范 。MR-IOV 人 允许 PCle 设 备 在 多 个 有 独立 PCI 根 的 系统 之 间 共 享 ， 这 些 系统 通过 基于 PCle 转 换 器 的 拓扑 结构 与 PCle 设 备 或 者 PCle-PCI 桥 
相连 接 。 目 前 MR-IOV 规 范 最 新 版 本 是 1.0 版 ,具体 可 以 参考 文献 [15]。 


2.6 Seiler 
2.6.1 VMware ESX 


ESX 是 VMware 公司 的 企业 级 商用 虚拟 化 平台 vSphere 的 一 个 关键 产品 。ESX 来 源 于 “Elastic Sky X" 的 缩写 ， 负 责 对 服务 器 硬件 资源 进行 虚拟 化 。 在 ESX 出 现 之 前 ，VMware 曾 经 推出 过 GSX Server, 
相 比 于 VMware 最 早 的 虚拟 化 产品 Workstation ，GSX 能 够 提供 远程 虚拟 机 管理 与 配置 功能 ， 然 而 ， 由 于 GSX 是 作为 一 个 软件 包 安 装 于 服务 器 的 操作 系统 之 上 ， 必 须 通过 物理 机 Os 来 管理 底层 物理 硬件 资 
源 ， 因 此 大 大 限制 了 GSX 的 可 扩展 性 。 同 时 期 微软 公司 的 Virtual Server 也 存在 相同 的 问题 。 


针对 这 一 问题 ， VMware 推出 了 ESX 产 品 。ESX Server 可 以 直接 运行 在 物理 机 上 ， 能 够 直接 访问 服务 器 上 的 物理 硬件 ， 成 为 一 个 真正 原生 架构 的 虚拟 化 平台 (Bare-Metal) 。ESX 2.x 的 服务 控制 平台 
(Console OS 或 VMnix) 基于 Red Hat Linux 7.2, ESX 3.0 的 服务 控制 平台 源 自 Red Hat Linux 7.2 经 过 修改 的 一 个 版 本 一 一 它 是 作为 一 个 用 来 加 载 vmkernel 的 引导 加 载 程序 运行 的 ， 并 提供 了 各 种 管理 界 
m (如 CLI、 浏 览 器 界面 MUI、 远 程控 制 台 ) 。 


VMware 在 2011 年 的 vSsphere 5.0 中 停止 了 ESX 的 新 版 本 发 布 ， 而 是 用 去 除了 Service Console 的 ESXi 蔡 代 原 先 的 ESX。 目 前 ESXi 的 最 新 版 本 是 5.5 版 。 
1.ESXi 的 架构 


如 图 2-23 所 示 ，ESXi 主 要 由 底层 的 操作 系统 VMkernel 与 运行 于 其 上 的 一 些 进程 构成 。 VMkernel 负 责 虚 拟 化 平台 中 最 关键 的 功能 ， 诸 如 物理 层 硬件 资源 的 虚拟 化 和 管理 、 虚 拟 机 的 调度 、 存 储 与 网 络 
I/O 的 协议 栈 ， 还 有 分 布 式 VM 文 件 系 统 。 进 程 主要 包括 : 


: DCUI (Direct Console User Interface) : 提供 较 低 层次 的 配置 和 管理 接口 ， 用 户 通 过 ESXi 控 制 台 可 以 进行 访问 。 主 要 用 于 初始 化 时 的 基本 配置 。 


“ 虚拟 机 监控 器 : 负责 为 虚拟 机 提供 运行 环境 ,与 虚拟 机 一 一 对 应 ; 同时 每 个 虚拟 机 还 有 一 个 帮助 进程 VMX。 
- vpxaSNMP: 用 于 提供 高 级 远程 VMware 云 基础 架构 管理 的 代理 进程 。 


: CIM (Common Information Model) : 用 来 提供 远程 硬件 管理 的 接口 。 
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图 2-23 ESXi 的 架构 


2.ESXi 的 虚拟 化 技术 与 资源 管理 


ESXi 中 对 于 CPU、 网 络 、 磁 盘 、 内 存 和 外 设 的 虚拟 化 ， 都 是 在 一 个 称 为 “虚拟 层 ” (Virtualization Layer) 的 模块 中 完成 。 虚 拟 层 使 得 每 个 虚拟 机 都 能 够 感知 到 属于 自己 的 虚拟 设备 ， 并 且 与 运行 同一 
物理 机 的 其 他 虚拟 机 相互 隔离 。 在 实现 上 ，VMKkernel 负 责 对 物理 设备 进行 虚拟 化 并 进行 资源 管理 ， 进 程 VMM 则 负责 为 每 个 虚拟 机 呈现 一 个 虚拟 CPU。 


ESXi 支 持 全 虚拟 化 、 半 虚拟 化 和 硬件 辅助 的 虚拟 化 。ESXi 对 于 全 虚拟 化 和 硬件 辅助 虚拟 化 的 支持 在 此 不 再 歼 述 ， 对 于 半 虚 拟 化 ，ESXi 通 过 实现 VMI1 (Virtual Machine Interface) 接口 可 以 支持 操作 系 
统 内 核 修改 过 的 客户 机 与 YMM 之 间 进 行 通信 ， 设置 了 VM I 特性 的 虚拟 机 的 操作 系统 PCI 揪 槽 个 数 减少 到 一 个 。 在 操作 系统 方面 ， 它 支持 绝 大 部 分 的 Linux 版 本 ,编译 内 核 通 过 设置 选项 CONFIG_PARAVIRT 
和 CONFIG_VMI 可 以 支持 VMI， 有 具体 请 参考 文献 [19]。 

(1) CPU 虚拟 化 


在 Intel 公 司 没有 推出 VT-x 技 术 之 前 ，ESX/ESXi 采 用 了 直接 执行 与 二 进 制 翻译 相 结 合 的 方式 来 实现 x86 平 台 上 CPU 的 虚拟 化 ， 即 对 于 用 户 态 的 非特 权 指 令 采 用 直接 执行 的 方式 来 提高 运行 效率 ， 而 对 于 特 
权 指 令 则 翻译 为 一 组 在 虚拟 机 上 可 执行 的 特权 指令 ， 而 不 是 运行 在 整个 物理 机 上 。 这 种 翻译 二 进 制 指令 的 机 制 实 现 了 对 虚拟 机 的 隔离 与 封装 ， 同 时 又 使 得 x86 指 令 的 语义 在 虚拟 机 的 层次 上 得 到 了 保证 。 同 时 
利用 了 x86CPU 中 的 段 功能 对 VYMM 和 虚拟 机 之 间 的 内 存 空间 进行 保护 ， 确 保 虚 拟 机 之 间 的 相互 隔离 。 二 进 制 翻译 在 没有 硬件 虚拟 化 的 情况 下 是 实现 全 虚拟 化 技术 的 唯一 途径 ， 但 这 种 方式 的 一 个 明显 缺点 就 
是 存在 频繁 的 VM M 与 虚拟 机 的 上 下 文 切 换 开销 ， 这 使 得 性 能 大 打折 扣 。 


在 Intel 公 司 推出 针对 CPU 虚拟 化 的 VT-x、AMD 公 司 推出 Pacifica 之 后 ， 解 决 了 上 述 二 进 制 翻译 方案 性 能 较 低 的 缺陷 。 目 前 包括 ESX/ESXi 在 内 的 主流 虚拟 化 产品 都 采用 了 CPU 硬件 虚拟 化 方案 。 这 部 分 
需要 加 上 CPU 调度 算法 。 


(2) AFEK 


在 没有 出 现 硬件 支持 的 内 存 虚拟 化 技术 之 前 ，ESX/ESXi 采 用 影子 页 表 来 实现 虚拟 机 的 虚拟 地 址 到 物理 机 物理 地 址 的 快速 转换 。 当 Intel 和 AM D 公 司 分 别 推出 了 EPT 与 RIV 技 术 之 后 ，ESX/ESXi 很 快 转向 硬 
件 支 持 来 提高 内 存 虚 拟 化 的 性 能 。 


在 虚拟 化 内 存 管理 上 ，ESX/ESXi 实 现 了 内 存 过 载 配置 (Memory Overcommitment) 的 目标 : 多 个 虚拟 机 总 的 内 存 分 配 量 大 于 物理 机 的 实际 内 存 容量 。 如 图 2-24 所 示 ， 一 个 物理 内 存 只 有 4GB 的 系 
统 ， 可 以 同时 运行 三 个 内 存 配置 为 2GB 的 虚拟 机 。 
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图 2-24 ESX/ESXi 中 的 内 存 过 载 配置 


内 存 过 载 功 能 意味 着 VMM 必 须 能 够 有 效 地 回收 虚拟 机 中 不 断 释放 的 内 存 ， 并 在 有 限 的 内 存 容量 中 尽 可 能 地 提高 内 存 利用 率 。ESX/ESXi 采 用 了 以 下 三 种 技术 : 透明 页 共享 、 气 泡 回收 法 以 及 内 存 换 出 ， 
它们 都 从 不 同 的 角度 实现 了 这 项 功能 。 

1) 透明 页 共享 (Transparent Page Sharing) 。 当 运行 多 个 虚拟 机 时 ， 有 些 内 人 存 页 面 的 内 容 很 可 能 是 完全 一 样 的 。 这 就 为 虚拟 机 之 间 甚 至 在 虚拟 机 内 部 提供 了 共享 内 存 的 可 能 。 例 如 ， 当 几 个 虚拟 机 
都 运行 相同 的 操作 系统 、 相 同 的 应 用 程序 或 者 包含 相同 的 用 户 数据 时 ， 那 些 包含 相同 数据 的 内 存 页 面 完全 可 以 被 共享 。 基 于 这 个 原理 ，VMM 完 全 可 通过 回收 元 余数 据 的 内 存 页 面 ， 仅 维持 一 个 被 多 个 虚拟 
机 共享 的 内 存 拷贝 来 实现 这 个 功能 。 


在 VMware ESX/ESXi 中 ， 检 测 页 面 数据 是 否 郊 余 是 通过 散 列 的 方法 来 实现 的 ， 如 图 2-25 所 示 。 首 先 VM M 会 维持 一 个 全 局 散 列 表 ， 其 中 每 个 表 项 都 记录 了 一 个 物理 页 面 数据 的 散 列 值 与 页 号 。 当 对 某 一 
个 虚拟 机 进行 页 面 共享 扫 摘 时 ，VM M 会 针对 该 虚拟 机 物理 页 面 的 数据 计算 散 列 值 ， 并 在 全 局 散 列 表 中 进行 遍历 及 匹配 是 否 有 相同 的 散 列 值 的 表 项 。 当 找到 了 匹配 的 表 项 ， 还 要 对 页 面 数 据 内 容 逐 位 比较 ， 
以 避免 由 于 散 列 冲突 而 导致 的 页 面 内 容 不 一 样 的 可 能 性 。 一 旦 确定 页 面 数据 完全 一 致 ， 则 会 修改 逻辑 地 址 到 物理 地 址 的 映射 关系 ， 即 将 从 多 辑 地 址 对 应 到 包含 元 余数 据 的 物理 地 址 的 映射 关系 (图 2-25 中 虚 
线 所 示 ) 改 为 对 应 到 要 被 共享 物理 地 址 的 映射 关系 ， 并 回收 元 余 的 物理 页 面 。 这 一 过 程 对 于 虚拟 机 操作 系统 是 完全 透明 的 ， 因 此 ， 共 享 页 面 中 含有 敏感 数据 的 部 分 不 会 在 虚拟 机 之 间 泄 露 。 
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图 2-25 内存 透明 页 共享 


当 虚 拟 机 对 共享 页 面 发生 写 操作 时 ， 一 项 “ 写 时 拷贝 ” (Copy-on-Write) 技术 被 用 来 处 理 这 种 情况 。 具 体 来 说 ， 任 何 一 个 对 共享 页 面 的 写 操作 都 会 引发 页 面 错误 (Minor Page Fault) 。 当 VMM 捕 
获 到 这 个 错误 时 ， 会 给 发 起 写 操作 的 虚拟 机 创建 一 个 该 页 面 的 私有 拷贝 ， 并 将 被 写 的 逻辑 地 址 映射 到 这 个 私有 拷贝 页 面 。 这 样 虚拟 机 就 可 以 安全 地 进行 写 操作 ， 并 且 不 会 影响 到 其 他 共享 该 页 面 的 虚拟 机 。 
相 比 于 对 非 共 享 页 面 的 写 操作 ， 尽 管 这 种 处 理 方法 的 确 导致 了 一 些 额外 的 开销 ， 但 是 却 在 一 定 程度 上 提高 了 内 存 页 面 的 利用 率 。 


2) 气球 回收 法 (Ballooning) 。 基 于 气球 回收 法 的 内 存 管 理 机 制 与 页 面 共 享 完全 不 同 。 在 虚拟 化 环境 中 ，VMM 会 一 次 性 在 虚拟 机 局 动 后 分 配给 虚拟 机 内 存 ， 由 于 虚拟 机 并 没有 意识 到 自己 运行 于 虚拟 
化 平台 上 ， 之 后 它 会 一 直 运 行 在 分 配 好 的 内 存 空间 ， 而 不 主动 释放 分 配 的 物理 内 存 给 其 他 虚拟 机 。 因 此 VMM 需 要 一 种 机 制 使 得 虚拟 机 能 够 主动 将 释放 的 内 存 归 还 给 物理 机 ， 再 由 VM M 分 配给 其 他 有 需求 的 
虚拟 机 。 


气球 回收 法 很 巧妙 地 解决 了 这 一 问题 。 原 理 就 是 : 虚拟 机 的 操作 系统 中 会 被 嵌入 一 个 假 的 Balloon 驱 动 ， 该 模块 与 虚拟 机 操作 系统 并 没有 交互 ， 而 是 通过 一 个 私有 通道 与 VM M 进 行 通信 。 所 谓 “气球 回 
收 ” 即 指 该 模块 会 像 在 虚拟 机 内 部 吹 气球 一 样 申请 内 存 ， 进 而 达到 让 虚拟 机 释放 内 存 的 目的 。 


图 2-26 给 出 了 采用 该 方法 释放 内 存 的 过 程 。 在 图 2-26a 中 ，VMM 有 四 个 页 面 被 映射 到 虚拟 机 的 内 存 页面 空 间 中 ， 其 中 左 侧 两 个 页 面 被 应 用 程序 占用 ， 而 另 两 个 被 打上 星 号 的 页 面 则 是 在 内 存 空 闪 列表 
中 。 当 VMM 要 从 虚拟 机 中 回收 内 存 时 ， 比 如 要 回收 两 个 内 存 页 面 ，VMM 就 会 将 Balloon 驱 动 的 目标 膨胀 大 小 设置 为 两 个 页 面 。Balloon 驱 动 获得 了 目标 膨胀 值 之 后 ， 就 会 在 虚拟 机 内 部 申请 两 个 页 面 空 间 的 
内 存 ， 并 如 图 2-26b 所 示 ， 调 用 虚拟 机 操作 系统 的 接口 标示 这 两 个 页 面 被 “ 钉 住 ”， 即 不 能 再 被 分 配 出 去 。 内 存 申请 完毕 后 ，Balloon 驱 动 会 通知 VMM 这 两 个 页 面 的 页 号 ， 这 样 VYMM 就 可 以 找到 相应 的 物 
理 页 号 并 进行 回收 。 图 2-26b 中 虚线 就 标示 了 这 两 个 页 面 从 虚拟 机 分 配 出 去 的 状态 。 
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图 2-26 ”气球 回收 法 


由 于 被 释放 的 页 面 在 释放 前 已 经 在 虚拟 机 的 空闲 列表 里 ， 因 此 没有 进程 会 对 该 页 面 进行 读 写 操作 。 如 果 虚 拟 机 的 进程 接 下 来 要 重新 访问 这 些 页 面 ， 那 么 VMM 可 以 像 平 常 分 配 内 存 一 样 ， 再 分 配 新 的 物 
理 内 存 给 这 人 台 虚 拟 机 。 当 VMM 决 定 收缩 气球 膨胀 大 小 时 ， 通 过 设置 更 小 的 目标 膨胀 值 ，balloon 驱 动 会 将 已 经 被 “ 钉 住 ”的 页 面 归还 给 虚拟 机 。 


通过 和 气球 回收 法 ， 尽 管 虚拟 机 的 负载 略微 增加 ， 但 VM M 却 成 功 地 将 系统 内 存 压力 转移 到 各 个 虚拟 机 上 。 当 balloon 驱 动 发 起 申请 内 存 的 请 求 时 ， 由 虚拟 机 操作 系统 决定 了 是 否 要 将 虚拟 机 物理 内 存 换 出 
来 满足 balloon 驱 动 的 申请 内 人 存 请 求 。 如 果 虚 拟 机 有 充足 的 空闲 内 存 ， 那 么 balloon 驱 动 申请 内 存 并 不 会 对 虚拟 机 的 性 能 造成 影响 ， 如 果 虚 拟 机 内 人 存 已 经 吃紧 ， 那 么 就 需要 由 虚拟 机 的 操作 系统 决定 换 出 哪些 
内 存 页 面 ， 满 足 balloon 驱 动 的 请 求 。 因 此 ， 气 球 回收 法 巧妙 地 利用 了 各 个 虚拟 机 操作 系统 的 内 存 换 页 机 制 来 确定 哪些 页 面 要 被 释放 给 物理 机 ， 而 不 是 由 VM M 来 决定 。 


气球 回收 法 要 求 虚 拟 机 操作 系统 必须 安装 balloon 驱 动 ， 在 VMware 的 ESX/ESXi 产 品 中 ， 就 是 VMware Tool， 另 外 ， 气 球 回收 法 回收 内 存 需要 一 段 时 间 ， 不 能 马上 满足 系统 的 需求 。 


3) 内 存 换 出 (Swapping) 。 页 面 共享 机 制 与 气球 回收 法 都 从 不 同 的 角度 尽 可 能 地 提高 虚拟 机 的 内 存 利 用 率 ， 从 虚拟 机 中 收回 可 以 复 用 或 者 空 闪 的 内 存 。 然 而 这 两 种 方法 都 不 能 在 短 时 间 内 满足 系统 内 
存 回 收 的 要 求 : 页 面 共享 依赖 于 页 面 的 扫描 速度 ， 以 及 是 否 有 页 面 可 共享 ;气球 回收 法 则 取决 于 虚拟 机 操作 系统 对 于 balloon 驱 动 申请 内 存 的 响应 时 间 。 如 果 这 两 种 温和 的 方法 都 不 能 满足 需求 ，VMM 则 会 
采取 内 存 换 出 机 制 ， 即 强制 性 地 从 虚拟 机 中 夺回 内 存 。 


具体 来 说 ，VM M 会 在 每 个 虚拟 机 启动 时 创建 一 个 单独 的 换 页 文件 (Swap File) 。 在 必要 的 时 候 ，VMM 会 主动 将 虚拟 机 的 物理 内 存 页 面 换 到 这 个 换 页 文件 上 ， 释 放 给 其 他 虚拟 机 使 用 。 


内 存 换 出 机 制 是 VM M 需 要 在 短 时 间 内 缓解 内 存 压 力 的 一 种 有 效 方法 ， 然 而 这 种 方法 却 很 可 能 严重 导致 VMM 的 性 能 下 降 。 由 于 VMM 对 于 虚拟 机 的 内 存 使 用 状态 并 不 了 解 ， 强 制 内 存 换 出 可 能 触发 虚拟 
机 操作 系统 内 部 的 一 些 换 页 机 制 。 举 例 来 说 ， 虚 拟 机 操作 系统 永远 都 不 会 将 内 核 的 内 存 页 面 换 出 ， 而 VM M 并 不 知道 哪些 页 正在 被 内 核 使 用 ， 一 旦 这 些 页 面 被 换 出 ， 会 使 得 虚拟 机 性 能 严重 受 损 。 


4) 内 人 存 回 收 管理 实例 。 接 下 来 以 VMware ESX/ESXi 为 例 介 绍 内 存 回收 机 制 。 一 般 来 说 ，ESX/ESXi 会 对 物理 机 的 空 亲 内 存 状态 按照 空闲 内 存 的 百分比 设置 四 种 状态 ， 分 别 是 : 高 (6%) 、 平 缓 
(4%) 、 繁 重 (2%) 和 低 (1%) 。ESX/ESXi 会 按照 这 四 种 状态 来 选择 前 述 三 种 内 存 回收 机 制 。 


缺 省 状态 下 ，ESX/ESXi 会 局 用 页 面 共享 机 制 ， 因 为 页 面 共 享 机 制 能 以 较 小 的 开销 提高 内 存 利 用 率 。 何 时 启用 气球 回收 和 换 页 则 很 大 程度 上 取决 于 当前 系统 的 内 存 状态 。 


当 内 存 状态 处 于 “高 ， 很 显然 此 时 总 的 虚拟 机 内 存 使 用 量 要 小 于 物理 机 的 内 存 容量 ， 因 此 不 管 物理 机 的 内 存 是 否 已 经 被 过 载 分 配 ，VMM 都 不 会 使 用 气球 或 者 换 页 的 方法 回收 内 存 。 然 而 ， 当 物理 机 
空 闪 内 存 状 态 下 降 到 了 “平缓” 状态，VMM 则 开始 使 用 气球 回收 法 。 事 实 上 ， 气 球 回收 法 是 在 空 闪 内 存 的 百分比 高 于 “平缓 ”的 阐 值 6% 之 前 启动 的 ， 这 是 因为 该 方法 总 是 需要 一 段 时 间 才 能 在 虚拟 机 内 申 
请 到 一 些 内 存 。 通 常 气球 回收 法 都 能 够 及 时 将 空 帮 内 存 比 的 羡 值 控制 在 “平缓 ”状态 之 上 。 

一 旦 气球 回收 法 不 能 够 及 时 回收 内 存 ， 并 且 空 闪 内 存 下 降 到 “繁重 ”状态 ， 即 空 闪 内 存 比 低 于 2%， 那 么 VMM 就 会 再 启动 内 存 换 出 机 制 强制 从 虚拟 机 回收 内 存 。 使 用 这 种 办 法 ，VM M 能 够 很 快 回收 内 
存 ， 并 将 空 内 内存 比 控制 回 “ 平 组 ”状态 。 

在 最 坏 的 情况 下 ， 万 一 空闲 内 存 状态 低 于 “ 低 ” 状 态 ， 即 空闲 内 存 比 低 于 1%， 那 么 VM M 会 继续 使 用 内 存 换 出 法 ， 同 时 将 那些 消耗 内 存 值 超过 内 存 配置 值 的 虚拟 机 挂 起 。 

在 某 些 情况 下 ，VMM 可 能 不 会 考虑 物理 机 空闲 内 存 状态 ， 而 仍然 启动 物理 机 内 存 回收 机 制 。 举 例 来 说 ， 即 使 整个 系统 的 物理 机 空闲 内 存 状态 为 “高 ”， 如 果 某 个 虚拟 机 的 内 存 使 用 量 超过 了 其 指定 的 
内 存 上 限 ， 那 么 VM M 会 启动 气球 回收 法 ， 如 有 必要 ， 也 会 启动 内 存 换 出 机 制 从 虚拟 机 回收 内 存 ， 直 到 该 虚拟 机 的 内 存 低 于 指定 的 内 存 上 限 。 

(3) 设备 虚拟 化 


在 ESXi 中 ，VMkernel 负 责 管理 虚拟 机 对 于 网 络 和 存储 设备 的 访问 。 通 过 设备 模拟 技术 ， 不 同 的 物理 设备 对 于 虚拟 机 可 以 呈现 为 某 种 特定 的 虚拟 设备 ， 甚 至 并 不 存在 的 虚拟 设备 。 对 于 存储 ， 物 理 服务 器 
上 部 署 的 可 能 是 某 种 SCSI 设 备 、 磁 盘 阵列 甚至 是 SAN 存 储 网 络 ， 但 是 ESXi 能 够 模拟 出 BusLogic 或 者 LsILogic 的 SCSI 适 配器 ， 因 此 对 于 虚拟 机 总 是 呈现 为 SCSI 设 备 。 而 对 于 网 络 ，ESXi 则 模拟 为 AMD Lance 
适配器 或 者 一 个 并 不 存在 的 自 定义 接口 vmxnet， 来 帮助 虚拟 机 对 网 络 的 访问 。 


图 2-27 以 一 台 虚 拟 机 对 网 络 或 者 存储 发 起 访问 为 例 ， 显 示 了 在 ESXi 服 务 器 内 部 经 过 的 MO 路 径 。 其 中 ， 虚 拟 机 分 别 使 用 vymxnet 虚 拟 网 络 适 配器 与 LS| Logic 虚 拟 SCSI 适 配器 对 网 络 和 存储 进行 访问 ， 而 物 
理 层 服务 器 则 使 用 Intel e1000 网 卡 连 接 到 SAN 网 络 的 QLogic 光 纤 HBA 卡 。 
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图 2-27 ESXi 中 I/O 访 问 路 径 


首先 ， 如 图 2-27 中 @@ 所 示 ， 虚 拟 机 中 的 某 个 应 用 程序 通过 操作 系统 发 起 MO 访问 ， 比 如 发 送 一 个 网 络 数据 包 或 者 向 磁盘 写 入 一 个 文件 ; 接 下 来 ，@ 表 示 操 作 系统 对 其 进行 处 理 ， 并 调用 设备 驱动 处 理 相 
应 的 MO 请 求 ; @ 表 示 当 设备 驱动 试图 访问 外 设 时 ，VMM 拦 截 到 该 操作 并 将 控制 权 切 换 到 Vmkernel; @ 为 VMkernel 获 得 控制 权 后 ，IMO 请 求 会 被 转发 到 与 设备 无 关 的 网 络 或 者 存储 抽象 层 进行 处 理 ; OX 
示 VMkernel 还 会 同时 接收 到 来 自 其 他 虚拟 机 的 多 个 MO 请 求 ， 并 对 这 些 MO 请 求 按照 特定 算法 进行 优先 级 调度 处 理 。IO 请 求 最 终 会 被 转发 到 具有 物理 设备 驱动 程序 的 硬件 接口 层 进行 处 理 。 


当 1/O 请 求 的 完成 中 断 到 达 时 ，1/O 处 理 过 程 则 与 上 述 路 径 完 全 相反 。VMkernel 中 设备 驱动 会 将 到 达 的 中 断 保护 起 来 ， 并 调用 VMkernel 来 处 理 该 中 断 ; 接 下 来 VMkerneI 会 通知 相应 虚拟 机 的 VMM 进 
程 ，VM M 进 程 会 向 虚拟 机 发 起 中 断 ， 以 通知 MO 请 求 处 理 完毕 ; 同时 VMkernel 还 要 确保 MO 处 理 完毕 的 相关 信息 与 其 他 虚拟 机 的 数据 相互 隔离 。 


由 于 上 述 过 程 需 要 VMkernel 处 理 I/O 请 求 ， 因 此 从 虚拟 机 到 VMkernel 上 下 文 的 切换 过 程 会 导致 一 定 的 开销 。 为 了 降低 开销 ，vmxnet 在 收发 数据 包 之 前 ， 会 收集 一 组 数据 包 再 转发 给 各 个 虚拟 机 或 者 一 
起 发 送出 去 。 由 于 采用 了 软件 模拟 设备 驱动 ，ESX/ESXi 也 提供 调节 设备 驱动 内 部 的 I/O 队 列 长 度 等 方式 来 优化 性 能 。 


至 于 多 个 虚拟 机 之 间 的 设备 资源 管理 方面 ， 对 于 网 络 ，ESXi 采 用 了 流量 整形 (Traffic-Shaping) 的 方式 限制 每 个 虚拟 机 的 总 带 外 流量 ; 对 于 存储 ，ESXi 实 现 了 比例 公平 的 算法 平衡 多 个 虚拟 机 之 间 磁 盘 
访问 带宽 。 具 体 细节 可 以 参考 文献 [21]。 


3.VMFS 文 件 系 统 


VMFS 是 ESXi 的 文件 系统 ， 用 于 存储 虚拟 机 镜像 文件 。 如 图 2-28 所 示 ，VMFS 是 一 个 分 布 式 文件 系统 ， 允 许多 个 服务 器 对 同一 个 卷 的 文件 进行 并 发 访问 。 其 设计 目标 是 为 多 个 虚拟 机 提供 高 性 能 |/O。 由 
于 存储 的 虚拟 机 虚拟 文件 大 小 通常 超过 1GB， 因 此 VMFS 专 门 对 挂 起 状态 虚拟 机 的 内 存 镜像 这 样 的 大 文件 的 存储 和 访问 进行 了 优化 ， 同 时 也 为 数量 较 少 的 大 文件 进行 了 优化 。 通 过 使 用 较 大 的 文件 系统 块 
(如 1MB~256MB) ，VMFS 可 以 将 虚拟 磁盘 文件 所 必需 的 元 数据 总 量 保 持 在 较 低 水 平 。 这 样 ， 所 有 的 元 数据 都 能 够 在 主 存 中 被 缓存 ， 所 有 文件 系统 的 读 写 都 可 以 无 需 访 问 磁盘 就 实现 。 需 要 注意 的 
是 ，VMFS 不 会 对 虚拟 机 的 I/O 操 作 进 行 缓存 ， 这 也 确保 了 完全 一 致 性 (Crash Consistency) 与 较 稳 定 的 MO 性 能 。 
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图 2-28 ESXit? VMFS 2244 


2.6.2 Xen 


Xen 是 一 个 开源 虚拟 机 监视 器 ， 最 初 作 为 剑桥 大 学 计算 机 实验 室 的 一 个 开发 项 目 ， 其 设计 目标 是 在 一 台 服 务 器 上 运行 约 100 个 具有 完全 功能 的 操作 系统 。Xen 是 一 个 利用 半 虚 拟 化 技术 达到 整个 虚拟 化 平 
台 低 耗 高 效 的 典型 例子 。 目 前 由 Xen.org 社 区 负责 维护 和 开发 。 


1.Xen 的 架构 


Xen 的 架构 如 图 2-29 所 示 。 
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2-29 ”Xen 的 架构 


1) Xen 监 控 器 (Hypervisor) : 从 图 2-29 中 可 以 看 出 ，Xen 监 控 器 是 一 个 直接 运行 于 硬件 之 上 的 “ 超 瘦 ”软件 层 ， 负 责 对 CPU、 内 存 和 中 断 等 关键 资源 的 管理 。 它 是 系统 启动 时 引导 程序 退出 后 第 一 个 
运行 的 程序 ， 其 上 运行 多 个 虚拟 机 ， 称 为 Domain 或 Guest。Xen 监 控 器 本 身 并 不 负责 MO 设备 的 虚拟 化 。 


2) 控制 域 (Domain 0) : 图 2-29 中 运行 于 Xen 监 控 器 之 上 最 左 侧 的 虚拟 机 是 Xen 中 的 控制 域 ， 通 常 称 为 Domain 0， 其 包括 了 所 有 系统 设备 的 驱动 程序 ， 同 时 也 包括 了 用 于 管理 虚拟 机 创建 、 销 毁 和 配 
置 等 任务 的 控制 栈 (Control Stack) 。Domain 0 具有 其 他 虚拟 机 所 没有 的 特权 : 直接 访问 硬件 、 处 理 所 有 与 MO 有 关 的 操作 以 及 与 其 他 虚拟 机 相互 交互 ， 所 有 半 虚 拟 化 的 虚拟 机 对 于 MO 的 访问 都 要 经 过 
Domain 0。 该 虚拟 机 是 Xen 系 统 启动 后 运行 的 第 一 个 虚拟 机 ， 并 暴露 出 一 些 接口 以 便 能 被 监控 器 所 控制 。 


3) BP iy (Domain U) /虚拟 机 : Xen 监 控 器 之 上 的 各 个 虚拟 机 构成 了 运行 不 同 操作 系统 以 及 应 用 程序 的 虚拟 化 环境 。Xen 支 持 两 种 虚拟 化 模式 : 半 虚 拟 化 与 硬件 辅助 的 全 虚拟 化 。 在 PV 虚拟 机 上 可 
运行 的 OS 包括 Linux、Solaris、FreeBSD 与 其 他 UNIX 操 作 系统 ;在 HVM 虚 拟 机 上 可 运行 的 OS 包括 标准 的 Windows 与 其 他 不 可 修改 的 操作 系统 。 在 一 个 Xen 系 统 上 可 以 同时 运行 基于 这 两 种 虚拟 化 模式 的 不 
同 庶 拟 机 。 从 图 2-29 中 可 以 看 出 ， 运 行 于 Hypervisor 之 上 的 中 间 两 个 虚拟 机 是 PV 虚拟 机 ， 而 最 右 侧 则 是 运行 Windows OS 的 HVM 虚 拟 机 。 另 外 ，Xen 的 客户 机 与 底层 硬件 完全 隔离 开 来 ， 因 此 ， 它 们 没有 
对 硬件 访问 的 权限 ， 因 此 也 称 为 非特 权 客 户 机 (Unprivileged Domain, Dom U) 。 


为 了 进一步 提高 全 虚拟 化 模式 的 性 能 ，Xen 还 引入 了 “PV on HVM" 技术， 即 在 全 虚拟 化 虚拟 机 中 使 用 一 些 特 殊 的 半 虚 拟 化 设备 驱动 。 这 些 半 虚 拟 化 设备 驱动 对 全 虚拟 化 环境 进行 了 优化 ， 并 对 模拟 的 
磁盘 和 1/O 设 备 进行 了 数据 包 分 流 ， 从 而 使 得 基于 全 虚拟 化 的 虚拟 机 能 够 获得 类 似 于 或 者 优 于 半 虚 拟 化 虚拟 机 的 性 能 。 
2.Xen 的 半 虚 拟 化 与 全 虚拟 化 


由 于 对 PV 虚拟 机 的 操作 系统 进行 了 修改 ， 虚 拟 化 环境 对 于 PV 虚拟 机 并 不 透明 。 具 体 来 说 ，PV 虚 拟 机 知道 其 本 身 并 不 能 访问 硬件 ， 并 且 也 知道 在 同一 物理 机 上 运行 着 其 他 虚拟 机 。Xen 采 用 半 虚 拟 化 的 
方式 提供 PV 虚拟 机 对 硬件 的 访问 。 


如 图 2-30 所 示 ，Domain 0 中 有 两 个 关键 的 驱动 支持 来 自 于 Domain U 对 网 络 与 本 地 磁盘 的 访问 操作 ， 分 别 是 网 络 后 端 驱 动 和 块 设备 后 端 驱 动 。 网 络 后 端 驱 动 负责 直接 与 本 地 网 络 设备 交互 并 处 理 来 自 于 
其 他 虚拟 机 的 请 求 。 块 设备 后 端 驱 动 则 负责 与 本 地 存储 磁盘 进行 读 写 交互 。 与 Domain 0 中 包含 后 端 驱 动 的 架构 相对 应 ，PV Domain U 也 包含 了 用 于 访问 网 络 的 前 端 驱动 与 访问 块 设备 的 前 端 驱动 。 
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图 2-30 Xen 的 前 端 /后 端 驱 动 模型 


具体 来 说 ， 前 端 驱 动 接收 来 自 上 层 应 用 层 的 MO 请 求 ，MO 请 求 并 没有 被 Xen 的 监控 器 处 理 ， 而 是 发 给 了 Domain 0 的 后 端 驱 动 ， 后 端 驱动 在 处 理 了 前 端 /O 请 求 后 ， 会 将 处 理 结果 直接 发 送 给 前 端 驱动 。 
在 这 一 过 程 中 ，Domain U 和 Domain 0 之 间 经 过 一 个 通道 直接 进行 通信 ， 而 完全 绕 过 了 Xen 的 监控 器 。 

图 2-31 是 网 卡 设备 的 前 端 驱 动 和 后 端 驱动 的 示例 。 从 中 可 以 看 出 ，Domain U 中 包括 了 一 个 用 于 访问 网 卡 的 虚拟 接口 ， 例 如 在 Linux 下 ， 这 个 前 端 虚拟 接口 会 与 驱动 程序 Xxen-netfront 绑 定 ， 并 创建 一 个 
虚拟 设备 ethN; 而 在 Domain 0 中 的 网 卡 后 端 驱动 ， 则 会 有 一 个 与 该 虚拟 机 对 应 的 后 端 虚拟 接口 ， 这 个 虚拟 接口 的 命名 通常 会 包括 Domain 1D 与 设备 1D。 前 端 与 后 端的 通信 通过 一 个 特殊 的 虚拟 通道 实现 数 


据 包 的 转发 。 后 端 驱 动 会 通过 多 种 方式 与 最 终 的 物理 网 络 相连 ， 例 如 桥接 、 转 发 或 者 NAT 等 方式 。 
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图 2-31 Xen 中 使 用 前 端 / 后 端 I/O 模 型 的 网 卡 设备 
而 对 基于 全 虚拟 化 的 HVM 虚 拟 机 ， 虚 拟 化 环境 完全 透明 。HVM 虚 拟 机 既 不 会 知道 自己 与 其 他 虚拟 机 共享 物理 机 的 硬件 资源 ， 也 不 会 了 解 到 同时 还 有 其 他 虚拟 机 的 存在 。 


HVM Domain U 并 没有 采用 前 端 驱动 的 方式 访问 硬件 ， 而 是 在 Domain 0 中 有 一 个 专门 的 守护 进程 ， 即 Qemu-dm 来 实现 硬件 设备 的 虚拟 化 。Qemu-dm 是 基于 开源 项 目 QEMU 的 一 个 改进 版 本 ， 类 似 
于 Domain 0 中 的 后 端 驱动 模拟 硬件 设备 的 功能 。 这 就 意味 着 HVM 虚 拟 机 可 以 得 到 功能 非常 完整 的 模拟 硬件 环境 。 


\ 一 /一 


PV 虚 拟 机 并 不 需要 访问 硬件 和 进行 MO 操作 ， 因 此 去 掉 了 所 有 与 硬件 和 固件 有 关 的 管理 服务 功能 ， 这 使 得 PV 虚 拟 机 运行 起 来 更 为 轻 量 级 。 相 反 ，HVM 虚 拟 机 中 则 保留 了 下 来 ， 因 此 ，Xen 监 控 器 需要 为 
HVM 虚 拟 机 模拟 PC 配置 空间 、IMO 端 口 来 提供 MO 地 址 空间 。 这 些 功能 是 通过 HVM 虚拟 机 启动 时 的 “virtual firmware” 完 成 的 。 通 过 选择 性 地 拷贝 物理 机 上 的 BIOS 配 置 到 HVM 虚 拟 机 的 地 址 空间 ， 以 及 
提供 启动 服务 与 运行 时 服务 ，virtual firmware 为 HVM 虚 拟 机 提供 了 可 访问 的 I/O 空 间 。 在 Xen3.3 版 本 中 ， 新 增 了 HVM Device Model Domain 功 能 ， 即 将 原先 运行 于 Domain 0 中 的 Qemu-dm 放 在 一 个 专 
门 用 于 处 理 各 个 Domain U 的 Stub Domain 中 。 通 过 将 |/O 处 理 从 Domain 0 中 分 离 出 来 ， 可 以 缓解 处 理 /O 请 求 的 进程 与 其 他 服务 进程 竞争 资源 ， 更 好 地 提高 MO 处 理性 能 ， 并 实现 安全 隔离 。 如 图 2-32 所 


示 ，HVM 虚 拟 机 可 以 直接 通过 Domain 0 中 的 Qemu-dm 进 行 |/O 访 问 ， 也 可 以 通过 专门 的 Stub Domain 中 Qemu-stubdom 进 行 /O 访 问 。 


3.Xen 工 具 栈 (Toolstack) 


Xen 有 着 丰富 的 工具 栈 帮 助 用 户 完成 虚拟 化 环境 中 的 各 种 任务 。 图 2-33 列 出 了 Xen 可 用 的 工具 栈 以 及 基于 Xen 的 商用 虚拟 化 平台 所 选择 的 不 同 工 具 栈 。 
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图 2-32 Xen 中 HVM 的 1/O 访 问 模型 
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图 2-33 Xen 的 工具 集合 
1) Libxenlight: 缩写 为 libxl|， 是 用 (编写 的 一 个 底层 库 ， 易 于 理解 ， 容 易 修改 和 扩展 。 由 于 libx| 具 有 简单 且 可 靠 的 APl， 并 且 提 供 了 常见 的 管理 功能 ， 因 此 所 有 Xen 的 工具 栈 都 是 基于 libx| 开 发 的 。 
2) XL: 一 个 轻 量 级 的 命令 行 形式 的 工具 栈 。XI 随 着 Xen 一 起 发 布 ， 是 Xen4.1 之 后 的 缺 省 工具 栈 。 


3) XAPI: 即 Xen 管 理 API (Xen Management API) 。 它 是 Xen 产 品级 别 、 目 前 功能 最 完备 的 工具 栈 。 许 多 云 平台 都 基于 这 个 API 进 行 管理 ， 例 如 : CloudStack 和 OpenStack。 
4.Xen 的 通信 机 制 


正如 前 面 所 介绍 的 ，Xen 监 控 器 并 没有 提供 网 络 与 磁盘 访问 的 MO 功能 ， 而 Domain 0 则 具有 网络 和 磁盘 的 驱动 程序 ， 因 此 对 于 PV 虚拟 机 来 说 ， 必 须 提供 某 种 机 制 借助 Domain 0 完成 。Xen 采 用 以 下 三 
种 技术 完成 MO 操作 : 


1) 事件 通道 : Xen 采 用 事件 机 制 通知 Domain U 某 个 事件 的 发 生 。Domain U 为 了 能 够 在 事件 发 生 时 及 时 被 通知 ， 需 要 为 该 事件 注册 一 个 回调 函数 。 另 外 ， 正 在 等 待 多 个 事件 的 Domain U 在 一 个 事件 
通知 到 达 时 ， 还 需要 多 个 标志 位 来 区 分 是 哪 一 个 事件 。 事 件 可 以 来 自 于 Xen 监 控 器 ， 也 可 以 来 自 于 虚拟 中 断 或 者 其 他 虚拟 机 。 


2) IMO 共 享 环 : 在 不 同 Dpomain 中 共享 的 、 用 来 管理 MO 请 求 的 环形 队列 。 如 图 2-34 所 示 ， 每 个 域 仅 包含 MO 请 求 的 指针 ， 并 不 包含 MO 请 求 的 真正 数据 。 利 用 生产 者 和 消费 者 的 原理 ，MO 共 享 环 维护 两 
对 指针 ， 是 I/O 请 求 的 生产 者 /消费 者 、IMO 处 理 结果 的 生产 者 和 消费 者 。 
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3) Grant Table: 如 上 所 述 ， 在 发 起 |/O 请 求 时 |/O 共 享 环 并 没有 包含 要 被 传输 的 数据 。Xen 采 用 Grant Table 传 输 数 据 。Grant Table 有 三 种 方式 : 页 映射 方式 、 页 传送 方式 和 页 拷贝 方式 。 其 中 页 映射 


和 页 传送 可 以 避免 数据 拷贝 开销 。 
图 2-35 是 一 个 PV Domain U 向 MO 设备 写 入 数据 的 示例 ， 结 合 这 个 示例 可 以 说 明 Xen 如 何 使 用 上 述 三 种 机 制 完 成 MO 操 作 。 


如 图 2-35 所 示 ，@ 表 示 Domain U 的 前 端 驱动 收 到 来 自 于 上 层 应 用 程序 的 写 数据 请 求 ， 然 后 生产 |/O 请 求 ， 并 将 该 请 求 写 入 I/O 共 享 环 


; @ 表 示 前 端 驱动 将 数据 写 入 与 Domain 0 共享 的 Grant Table; © 


表示 前 端 驱动 通过 Xen 监 控 器 的 事件 通道 通知 Domain 0; @@ 表 示 Xen 监 控 器 发 现 事件 通道 中 有 新 的 事件 ， 通 知 后 端 驱动 对 其 处 理 ; @ 表 示 后 端 驱 动 从 MO 共享 环 中 取出 MO 请 求 ; @ 表 示 后 端 驱动 根据 MO 请 
求 从 Grant Table 中 取出 要 写 入 的 数据 ;@ 表 示 后 端 驱动 通过 调用 真正 的 驱动 完成 写 数据 操作 ; @@ 表 示 完 成 写 数据 操作 后 ， 后 端 驱动 通过 Xen 监 控 器 的 事件 通道 通知 前 端 驱动 完全 MO 请 求 ; @ 表 示 Xen 监 控 
器 发 现 有 新 的 MO 响应 事件 ， 为 Domain U 产 生 模拟 中 断 ;@@ 表 示 中 断 处 理 函 数 检查 事件 通道 ， 并 回调 前 端 驱动 的 MO 响应 处 理 函 数 ; 表示 前 段 驱动 从 MO 共享 环 中 读 出 MO 响应 ， 并 处 理 MO 响 应 结果 
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图 2-35 ”Xen 的 PV Domain U 写 数据 到 I/O 设 备 过 程 


第 3 草 ”软件 定义 存储 


软件 定义 存储 (Software-Defined Storage, SDS) 是 软件 定义 数据 中 心 (SDDC) 的 一 个 核心 组 件 。 有 别 于 传统 的 存储 ， 软 件 定义 存储 提出 了 一 种 新 的 存储 管理 模式 ， 使 其 能 够 满足 软件 定义 数据 中 
心 以 及 云 计 算 平 台 对 存储 提出 的 全 新 需求 。 


3.1 ”新 的 存储 管理 模式 


3.1.1 ”传统 存储 面临 的 挑战 


传统 的 数据 中 心里 ， 存 储 的 类 型 大 致 可 分 为 以 下 几 种 : 服务 器 内 置 磁 盘 、 直 接 附加 存储 、 存 储 区 域 网 络 及 网 络 附 加 存储 。 


服务 器 内 置 磁盘 (Internal Disk) 包括 SCSI、SATA 及 IDE 磁 盘 (历史 遗留 问题 ) 等 ， 这 些 磁盘 可 能 直接 由 操作 系统 管理 ， 也 可 能 通过 阵列 (RAID) 管理 器 进行 配置 使 用 (常见 的 有 RAID 5, RAID 6 
等 ) 。 内 置 磁盘 作为 最 简单 直接 的 存储 方式 ， 在 很 多 现代 数据 中 心里 仍然 到 处 可 见 。 


直接 附加 存储 (Directed Attached Storage, DAS) 作为 一 种 最 简单 的 外 接 人 存储 方式 ， 通 过 数据 线 直 接连 接 在 各 种 服务 器 或 客户 端 扩展 接口 上 。 它 本 身 是 硬件 的 堆 晋 ， 不 带 有 任何 存储 操作 系统 ， 因 而 
也 不 能 独立 于 服务 器 对 外 提供 存储 服务 。 DASs 常 见 的 形式 是 外 置 磁盘 阵列 ， 通 常 的 配置 就 是 RAID 控 制 器 + 一 堆 磁 盘 。DAs 安 装 方便 、 成 本 较 低 的 特性 使 其 特别 适合 于 对 存储 容量 要 求 不 高 、 服 务 器 数量 较 少 
的 中 小 型 数据 中 心 。 


存储 区 域 网 络 (Storage Area Network, SAN) 是 一 种 高 速 的 存储 专用 网 络 ， 通 过 专用 的 网 络 交换 技术 连接 数据 中 心里 的 所 有 存储 设备 和 服务 器 。 在 这 样 的 存储 网 络 中 ， 存 储 设备 与 服务 器 是 多 对 多 
的 服务 关系 : 一 台 存 储 设备 可 以 为 多 台 服 务 器 同时 提供 服务 ， 一 台 服 务 器 也 可 以 同时 使 用 来 自 多 台 存 储 设备 的 存储 服务 。 不 同 于 DAS，SAN 中 的 存储 设备 通常 配备 智能 管理 系统 ， 能 够 独立 对 外 提供 存储 服 
务 。 


典型 的 SAN 利 用 光纤 通道 (Fiber Channel, FC) 技术 连接 节点 ， 并 使 用 光纤 通道 交换 机 (FC Switch) 提供 网 络 交 换 (参见 图 3-1) 。 不 同 于 通用 的 数据 网 络 ， 存 储 区 域 网 络 中 的 数据 传输 基于 FC 协议 
栈 。 在 FC 协议 栈 之 上 运行 的 SCSI 协 议 提 供 存 储 访问 服务 。 与 之 相对 的 iSCSI 存 储 协 议 ， 则 提供 了 一 种 低 成 本 的 替代 方式 ， 即 将 SCSI 协 议 运行 于 TCP/IP 协 议 栈 之 上 。 为 了 区 别 这 两 种 存储 区 域 网 络 ， 前 者 通常 
称 为 FC SAN， 后 者 称 为 IP SAN, 
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图 3-1 存储 区 域 网 络 


SAN 的 优势 包括 : @@ 网 络 部 署 容 易 。 服 务 器 只 需要 配备 一 块 适 配 卡 (FC HBA) 就 可 以 通过 FC 交 换 机 接 入 网 络 ， 经 过 简单 的 配置 即 可 使 用 存储 。@ 高 速 人 存储 服务 。SAN 采 用 光纤 通道 技术 ， 所 以 它 具 有 
更 高 的 存储 带 完 ， 对 存储 性 能 的 提升 更 加 明显 。SAN 的 光纤 通道 使 用 全 双 工 捉 行 通信 原理 传输 数据 ， 传 输 速率 高 达 8~16Gbps。@ 良 好 的 扩展 能 力 。 由 于 SAN 采 用 了 网 络 结构 ， 扩 展 能 力 更 强 。 


网 络 附加 存储 (Network Attached Storage, NAS) 提供 了 另 一 种 独立 于 服务 器 的 存储 设备 访问 方式 (相对 于 内 置 存储 与 DAS) 。 类 似 于 SAN，NAS 也 是 通过 网 络 交 换 的 方式 连接 不 同 的 存储 设备 与 
服务 器 (参见 图 3-2) 。 同 样 ， 存 储 设备 与 服务 器 之 间 也 是 一 种 多 对 多 的 服务 关系 。NAS 服 务 器 通常 也 具有 智能 管理 系统 ， 能 够 独立 对 外 提供 服务 。 与 SAN 不 同 的 是 ，NAS 基 于 现 有 的 企业 网 络 ( 即 TCP/IP 
网 络 ) ， 不 需要 额外 搭建 昂贵 的 专用 存储 网 络 (FC) 。 此 外 NAs 通 过 文件 MO 的 方式 提供 人 存储， 这 点 也 不 同 于 SAN 的 块 MO 访问 方式 。 
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图 3-2 ”网 络 附加 存储 


NAS 的 优点 包括 : @ 真 正 的 即 揪 即 用 。NAs 是 独立 的 存储 节点 存在 于 网 络 之 中 ， 与 用 户 的 操作 系统 平台 无 关 。@ 人 存储 部 署 简单 。NAS 不 依赖 通用 的 操作 系统 ， 而 是 采用 一 个 面向 用 户 设计 的 ， 专 门 用 于 
数据 存储 的 简化 操作 系统 ， 内 置 了 与 网 络 连 接 所 需要 的 协议 ， 因 此 使 整个 系统 的 管理 和 设置 较为 简单 。@) 共 享 的 存储 访问 。NAS 人 允许 多 台 服 务 器 以 共享 的 方式 访问 同一 存储 单元 。 常 见 的 NAS 访 问 协议 有 
NFS (Network File System) 和 CIFS (Common Internet File System) 。@ 管 理 容易 且 成 本 低 (相对 于 SAN 来 说 ) 。 


随 着 云 计算 与 软件 定义 数据 中 心 的 出 现 ， 对 存储 管理 有 了 更 高 的 要 求 ， 传 统 存储 也 面临 着 诸多 前 所 未 有 的 挑战 : 


对 于 服务 器 内 置 存储 和 DAS 来 说 ， 单 一 磁 一 或 阵列 的 容量 与 性 能 都 是 有 限 的 ， 而 且 也 很 难 对 其 进行 扩展 。 另 外 这 两 种 存储 方式 也 缺乏 各 种 数据 服务 ， 例 如 数据 保护 、 高 可 用 性 、 数 据 去 重 等 。 最 大 的 
麻烦 在 于 这 样 的 存储 使 用 方式 导致 了 一 个 个 的 信息 孤岛 ， 这 对 于 数据 中 心 的 统一 管理 来 说 无 疑 是 一 个 焉 梦 。 


- 对 于 SAN 和 NAS 来 说 ， 目 前 的 解决 方案 首先 存在 一 个 供应 商 绑 定 的 问题 。 与 服务 器 的 商业 化 趋势 不 同 ， 存 储 产 品 的 操作 系统 (或 管理 系统 ) 仍然 是 封闭 的 。 不 仅 不 同 供应 商 之 间 的 系统 互 不 兼容 ， 而 
且 一 家 供应 商 的 不 同 产品 系列 之 间 也 不 具有 互 操 作 性 。 供 应 商 绑 定 的 问题 ， 也 导致 了 技术 壁 公 和 价格 高 企 的 现状 。 此 外 ， 管 理 孤 岛 的 问题 依旧 存在 ， 相 对 于 DAS 来 说 只 是 岛 大 一 点 ， 数 量 少 一 点 而 已 。 用 户 
管理 存储 产品 的 时 候 仍 然 需要 一 个 个 单独 登录 到 管理 系统 进行 配置 。 最 后 ，SAN 与 NAS 的 扩展 性 也 仍然 是 个 问题 。 


另外， 一 些 全 新 的 需求 也 开始 出 现 ， 例 如 对 多 租户 (Multi-Tenancy) 模式 的 支持 、 云 规模 (Cloud-Scale) 的 服务 支持 、 动 态 定 制 的 数据 服务 (Data Service) 以 及 直接 服务 虚拟 网 络 的 应 用 等 。 这 些 需求 


并 不 是 通过 对 现 有 存储 架构 的 简单 修 修补 补 就 可 以 满足 的 。 


3.1.2 ”新 的 管理 模式 : 软件 定义 存储 


在 这 样 的 背景 下 ， 一 种 新 的 存储 管理 模式 开始 出 现 ， 这 就 是 软件 定义 存储 (SDS) 。SDS 历 史上 也 曾 被 称 作 存 储 管理 器 (Storage Hypervisor) 、 存 储 操作 系统 (Storage OS) 等 ， 但 要 注意 的 是 这 些 
概念 之 间 并 不 能 简单 地 划 等 号 。SDS 也 不 同 于 存储 虚拟 化 (Storage Virtualization) 一 另 一 个 历史 更 悠久 的 概念 ， 这 一 点 将 在 下 一 节 详 细 阐 述 。 现 在 的 名 字 最 早 来 源 于 软件 定义 网 络 (SDN) ， 从 SDN 到 
SDDC 再 到 SDS (参见 图 3-3) ，SDS 的 设计 理念 也 与 SDN 有 着 诸多 相似 之 处 。 软 件 定义 存储 旨 在 开辟 这 样 一 个 新 世界 : 


+ 把 数据 中 心里 所 有 物理 的 存储 设备 转化 为 一 个 统一 、 虚 拟 、 共 享 的 存储 资源 池 。 其 中 存储 设备 包括 专业 的 SANVNAS 存 储 产 品 ， 也 包括 内 置 存储 和 DAS。 这 些 存储 设备 可 以 是 同 构 的 ， 也 可 以 是 异 构 
的 、 来 自 不 同 厂商 的 。 


: 把 存储 的 控制 与 管理 从 物理 设备 中 抽象 (Abstract) 与 分 离 (Decouple) 出 来 ， 并 将 其 纳入 统一 的 集中 化 管理 之 中 。 换 言 之 ， 就 是 将 控制 模块 〈Conttol Plane) 和 数据 模块 (Data Plane) ff£4£ 4. 
“ 基于 共享 的 存储 资源 池 ， 提 供 一 个 统一 的 管理 与 服务 /编程 访问 接口 ， 使 得 SDS 与 SDDC 或 者 云 计算 平台 下 其 他 的 服务 之 间 具 有 良好 的 互 操作 性 。 

- 把 数据 服务 从 存储 设备 中 独立 出 来 ， 使 得 跨 存 储 设备 的 数据 服务 成 为 可 能 。 专 业 的 数据 服务 甚至 可 以 运行 在 复杂 的 、 来 自 不 同 提供 商 的 存储 环境 中 。 

: 让 存储 成 为 一 种 动态 的 可 编程 资源 ， 就 像 我 们 现在 在 服务 器 (或 者 说 计算 平台 ) 上 看 到 的 基于 服务 器 虚拟 化 的 软件 定义 计算 (SDC) 一 样 。 

“ 让 未 来 的 存储 设备 采购 与 选择 变 得 像 现在 的 服务 器 购买 一 样 简单 直接 。 


+ 存储 的 提供 商 必 须要 适应 并 精通 于 为 不 同 的 存储 设备 提供 关键 的 功能 与 服务 ， 即 使 他 们 并 不 真正 拥有 底层 的 硬件 。 


软件 定义 的 数据 中 心 ， 所 软件 定义 的 存储 ， 虚 拟 化 了 
有 基础 杂 构 是 虚拟 化 的 ， 并 的 控制 和 数据 平面 ， 用 于 提供 
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图 3-3 ”从 SDDC 到 SDS 


1) 以 应 用 为 中 心 的 部 署 模 型 : 不 同 的 应 用 对 存储 有 不 同 的 要 求 ， 有 些 可 能 需要 大 容量 和 顺序 读 写 的 高 带宽 ， 有 些 可 能 需要 低 延 时 和 较 高 的 数据 保护 级 别 ， 不 一 而 足 。 对 于 今天 的 存储 设备 来 说 ， 为 了 满 
足 不 同 的 需求 ， 通 常 需 要 部 署 多 个 不 同 配置 的 存储 硬件 ， 即 多 个 硬件 资源 池 。 问 题 是 随 着 软件 定义 数据 中 心 与 云 计算 的 流行 ， 用 户 的 需求 可 能 干 差 万 别 ， 这 样 的 部 署 模式 显然 已 经 很 难 适应 现状 。 有 了 软件 
定义 存储 ， 情 况 就 会 大 不 相同 : 所 有 的 硬件 都 在 一 个 资源 池 里 ， 池 子 里 的 资源 可 以 动态 划分 并 灵活 管理 ,硬件 资源 的 规划 与 调度 也 变 得 更 加 有 效率 ， 不 需要 再 在 规划 的 时 候 留 出 很 大 的 余 量 ， 避 免 浪 费 。 


2) 按 需 动态 部 署 的 存储 软件 功能 : 除了 性 能 以 外 ， 用 户 对 存储 功能 的 需求 也 在 不 断 变化 ， 包 括 更 高 的 灵活 性 以 及 一 些 全 新 的 功能 。 对 于 传统 存储 厂商 来 说 ， 需 要 不 断 努 力 开发 新 功能 ， 并 将 软件 与 硬件 
进行 整合 。 不 幸 的 是 ， 由 于 这 些 软件 通常 与 硬件 紧密 耦合 ， 使 得 集成 与 测试 的 成 本 居 高 不 下 。 软 件 定义 存储 试图 把 这 些 功 能 都 抽象 出 来 ， 成 为 独立 的 软件 服务 。 一 方面 使 得 存储 厂商 对 新 功能 的 开发 、 测 
试 、 维 护 都 变 得 更 加 简单 ， 另 一 方面 也 为 用 户 提供 更 加 便捷 、 更 具 灵 活性 的 功能 部 署 模 式 。 


在 过 去 的 十 多 年 中 ， 服 务 器 虚拟 化 (计算 虚拟 化 、 软 件 定 义 计算 ) 已 经 彻底 改变 了 我 们 对 计算 能 力 的 理解 。 现 在 同样 的 概念 开始 逐渐 被 应 用 到 存储 世界 中 ， 不 过 这 次 也 许 用 不 了 那么 久 ， 因 为 虚拟 化 的 
理念 早已 深入 人 心 。 真 正 的 挑战 来 自传 统 存 储 设备 提供 商 内 部 ， 因 为 他 们 已 经 习惯 把 所 有 的 硬件 、 软 件 、 、 功 能 、 服 务 全 部 打包 到 一 个 盒子 (机 架 ) 里 ， 除 了 持续 改进 现 有 的 存储 产品 之 外 ， 他 们 也 要 
开始 适应 并 积极 拥抱 虚拟 化 、 抽 象 、 虚 拟 资源 池 等 新 理念 。 


当然 ， 目 前 的 存储 设备 仍 将 存在 很 长 一 段 时 间 ， 不 管 是 内 置 存 储 、DAS 还 是 SAN/NAS。 将 存储 功能 与 数据 服务 整合 在 物理 设备 上 的 方式 仍然 有 其 存在 的 理由 : 现 有 的 功能 不 需要 额外 开发 ; 功能 与 硬件 
有 着 很 好 的 整合 ;性 能 优化 已 经 有 成 熟 的 解决 方案 ， 有 完整 的 技术 支持 等 。 软 件 定义 存储 作为 一 种 新 事物 ， 仍 然 有 相当 长 的 一 段 路 要 走 ， 大 家 对 一 种 新 技术 的 接受 ， 也 不 是 一 路 而 就 的 〈 不 是 0 或 1) 。 


然而 ， 软 件 定义 存储 所 带 来 的 全 新 理念 及 其 所 展现 的 美好 愿景 ， 仍 然 直 人 眼前 一 亮 。 即 使 我 们 并 未 准备 好 接受 新 的 产品 或 者 解决 方案 ， 也 依然 值得 开始 关注 其 发 展 。 在 下 一 节 中 ， 让 我 们 一 起 来 看 看 软 
件 定义 存储 与 存储 虚拟 化 的 关系 ， 随 后 将 展开 对 软件 定义 存储 的 软件 架构 、 核 心理 想 、 设 计 原 则 等 的 详细 分 析 。 


3.2 与 存储 虚拟 化 的 比较 


近 几 十 年 ， 存 储 及 其 管理 大 致 经 历 了 如 下 三 个 阶段 : 软件 与 硬件 紧 耦 合 ; 软件 与 硬件 半 耦 合 ， 软件 与 硬件 松 耦 合 。 随 着 软件 与 硬件 耦合 程度 的 降低 ， 存 储 硬 件 设备 的 管理 越 来 越 自 动 化 ， 而 存储 服务 也 
越 来 越 灵 活 。 自 动 化 是 指 存储 服务 的 管理 屏蔽 了 硬件 设备 的 异 构 性 ， 集 中 管理 和 分 配 。 基 于 硬件 自动 化 的 管理 ， 人 存储 服务 的 灵活 性 表现 在 可 扩展 性 好 、 可 靠 性 高 、 安 全 性 强 。 


1) 第 一 阶段 : 软件 与 硬件 的 紧 厢 合 。 这 一 阶段 ， 特 定 的 硬件 需要 特定 的 软件 支持 ， 提 供 服务 时 软件 管理 硬件 的 逻辑 不 一 样 。 根 据 存 储 对 象 不 同 ， 分 为 文件 存储 、 块 存储 、 对 象 存储 。 根 据 存储 连接 不 
同 ， 包 括 直 连 存储 (Direct-Attached Storage, DAS) 、 存 储 区 域 网 (Storage Area Network, SAN) 等 。 不 同 的 业务 使 用 的 存储 对 象 不 同 ， 存 储 连 接 不 同 。 软 件 和 硬件 的 紧 耦 合 不 仅 给 管理 软件 带 来 困 
难 ， 而 且 服 务 的 开销 较 高 ， 可 扩展 性 也 不 高 。 例 如 ， 某 业务 当前 只 需要 使 用 5T 的 人 存储， 而 购买 时 往往 考虑 到 扩展 性 的 问题 ， 购 买 了 15T。 在 业务 开展 阶段 ， 有 10T 的 人 存储 资源 处 于 闲置 状态 。 而 后 由 于 业务 扩 
展 的 需要 ， 可 能 需要 20T 的 存储 资源 。 此 时 需要 重新 购买 设备 ， 而 旧 的 存储 由 于 很 难 与 新 设备 兼容 或 者 现 有 软件 无 法 共享 两 种 资源 ， 因 此 旧 的 设备 很 有 可 能 被 弃置 。 这 样 ， 不 仅 成 本 较 高 ， 而 且 不 利于 后 续 
扩展 。 基 于 以 上 不 足 ， 存 储 厂 商 开始 研发 存储 虚拟 化 工具 ， 其 目的 是 将 现 有 的 人 存储 资源 进行 整合 ， 使 其 提供 统一 的 硬件 资源 接口 ， 供 上 层 业务 使 用 ， 而 此 时 业务 使 用 资源 的 接口 是 虚拟 化 存储 设备 ， 不 需要 
直接 管理 硬件 资源 。 


2) 第 二 阶段 : 软件 与 硬件 的 半 耦 合 。 这 一 阶段 ， 虚 拟 化 技术 对 存储 硬件 作 了 一 层 抽象 ， 可 分 为 两 种 ， 盒 子 内 (in-box) 虚拟 化 ， 盒 子 外 (out-of-box) 虚拟 化 。 盒 子 内 虚拟 化 是 指 对 某 个 硬件 设备 进 
行 存储 抽象 ， 根 据 不 同 的 抽象 方法 对 硬件 资源 进行 动态 划分 ， 包 括 RAID、LVM、storage pooling、tiering 等 。 例 如 LVM 是 一 个 运行 在 物理 存储 设备 上 的 存储 空间 抽象 化 工具 ， 如 图 3-4 所 示 ，LVM 可 以 将 
大 的 存储 设备 划分 成 小 的 虚拟 存储 设备 供用 户 使 用 。 盒 子 外 虚拟 化 是 指 对 一 些 硬 件 资源 池 进行 抽象 和 虚拟 化 管理 。 将 物理 设备 的 数据 管理 和 控制 管理 进行 抽象 ， 物 理 设 备 的 数据 读 写 控制 以 及 数据 存储 均 通 
过 虚拟 化 软件 实现 。 典 型 的 例子 如 EMC 公 司 的 VPLEX， 如 图 3-5 所 示 ，VPLEX 可 以 针对 不 同 的 存储 硬件 资源 提供 新 的 抽象 层 ， 通 过 这 个 抽象 屋 ， 用 户 可 以 透明 地 使 用 LUN， 但 是 这 些 LUN 的 物理 位 置 是 动态 


可 变 的 ，VPLEX 可 以 使 数据 在 不 同 公司 存储 产品 甚至 不 同 的 数据 中 心 之 间 移 动 。 存 储 虚 拟 化 可 以 将 现 有 的 存储 资源 进行 整合 ， 不 同 公司 、 不 同 容量 的 存储 资源 形成 资源 池 供用 户 使 用 。 这 样 不 仅 节省 成 本 ， 
而 且 硬 件 资 源 也 可 以 十 分 方便 透明 地 扩展 。 存 储 虚 拟 化 不 仅 定 义 了 数据 的 管理 、 存 储 方式 和 策略 ， 而 且 定 义 了 存储 数据 具体 存放 的 位 置 。 然 而 存储 虚拟 化 发 展 过 程 中 发 现 ， 其 对 控制 层 (Control Plane) 和 
数据 层 (Data Plane) 进行 虚拟 化 处 理 后 ， 性 能 却 较 硬件 存储 大 大 降低 。 由 于 不 同 的 用 户 和 服务 需要 的 存储 控制 服务 不 同 (对 象 、 文 件 、 块 存储 ， 结 构 化 和 非 结构 化 存储 ) ， 这 些 服务 有 时 还 需要 根据 需求 
的 变化 灵活 地 配置 硬件 资源 。 存 储 虚 拟 化 对 数据 层 进行 虚拟 化 实现 ， 会 增加 用 户 使 用 资源 访问 的 时 间 ; 控制 层 虚 拟 化 实现 则 不 能 使 用 户 灵活 地 使 用 资源 ， 以 适应 服务 动态 变化 的 需要 。 
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图 3-4 LVM 工 作 原 理 
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图 3-5 “存储 虚拟 化 : VPLEX Local 


3) 第 三 阶段 : 软件 与 硬件 的 松 厢 合 。 这 一 阶段 ， 软 件 定义 存储 技术 被 提出 ， 该 技术 关注 控制 层 (Control Plane) 的 抽象 ， 而 数据 层 (Data Plane) 实现 留 给 下 层 的 存储 软件 和 硬件 。 特 别 地 ， 控 制 层 
(Control Plane) 的 抽象 实现 提供 了 可 编程 的 接口 ， 而 这 些 接口 可 以 供用 户 使 用 进行 自 定义 存储 控制 ， 从 而 使 得 控制 层 与 硬件 完全 分 离 。 典 型 的 例子 如 EMC 公 司 的 ViPR，EMC ViPR 是 一 个 轻 量 的 、 软 件 
实现 的 产品 可 以 将 现 有 的 存储 产品 整合 成 一 个 简单 、 可 扩展 、 开 放 的 平台 ， 它 可 以 提供 全 自动 的 存储 服务 并 且 帮 助 实现 软件 定义 的 数据 中 心 。ViPR 将 物理 存储 阵列 (EMC 及 其 他 公司 产品 ) 抽象 为 单一 的 虚 
拟 化 存储 资源 池 ， 并 提供 自动 化 、 有 效 的 存储 管理 ， 对 用 户 需求 集中 的 自动 化 分 配 ， 端 对 端 资 源 监控 、 测 量 等 。 提 供 工 业 化 的 应 用 编程 接口 (AP1) 和 全 局 数据 服务 (Global Data Services) 解放 了 数据 和 

软件 对 存储 的 依赖 ， 并 帮助 实现 了 在 数据 中 心中 灵活 高 效 的 数据 和 软件 迁移 。 


存储 虚拟 化 与 软件 定义 存储 的 本 质 区 别 是 : 存储 虚拟 化 对 控制 层 (Control Plane) 和 数据 层 (Data Plane) 进行 了 抽象 ， 并 且 控 制 层 抽象 依赖 于 数据 层 抽象 ; 而 软件 定义 存储 将 控制 层 进行 抽象 ， 将 
抽象 的 控制 层 与 数据 层 进行 分 离 ， 并 提供 接口 给 用 户 ， 用 户 可 以 使 用 接口 定义 自己 的 数据 控制 策略 。 首 先 我 们 定义 控制 层 和 数据 层 。 如 表 3-1 所 示 ， 控 制 层 是 指 对 数据 的 管理 策略 ， 它 不 需要 知道 数据 具体 的 
存储 方式 ， 如 块 、 文 件 或 者 对 象 存储 ， 它 的 时 间 损 耗 级 别 是 毫秒 级 ;数据 层 是 指 具 体 读 写 硬 件 方式 ， 如 块 、 文 件 或 者 对 象 读 写 ， 速 度 是 微 秒 级 。 


表 3-1 存储 控制 层 和 数据 层 


存储 控制 层 存储 数据 层 


速度 级 别 毫秒 级 MEK 


例子 数据 服务 的 策略 Block, NAS, Object I/O 


用 户 在 使 用 存储 时 ， 着 重 关注 数据 服务 的 策略 ， 这 些 策 略 与 具体 的 数据 存储 方式 无 天 。 而 当今 的 存储 虚拟 化 产品 将 存储 控制 和 数据 层 结合 ， 即 数据 服务 的 策略 紧密 依赖 于 数据 存储 的 方式 。 事 实 上 ， 数 
据 存 储 速 度 是 微 秒 级 ， 而 数据 存储 控制 较 慢 。 当 实现 数据 服务 策略 时 ， 传 统 的 存储 虚拟 化 技术 不 能 灵活 配置 存储 控制 ， 因 此 针对 某 个 服务 的 变化 ， 响 应 时 间 主 要 是 控制 开销 。 再 者 ， 用 户 人 存储 数据 时 ， 必 须 
对 数据 的 控制 和 人 存储 方式 都 有 足够 的 了 解 ， 这 增加 了 使 用 存储 资源 的 难度 ， 而 且 存 储 资源 的 可 扩展 性 不 高 。 此 外 ， 由 于 传统 的 存储 虚拟 化 技术 缺少 标准 的 存储 数据 监控 功能 ， 当 某 个 设备 出 现 问题 时 ， 用 户 
只 能 依赖 底层 的 一 些 存 储 机 制 (如 日 志 ) 进行 问题 发 现 和 定位 。 


表 3-2 对 存储 虚拟 化 与 软件 定义 存储 进行 了 对 比 。 


表 3-2 存储 虚拟 化 与 软件 定义 存储 对 比 


存储 虚拟 化 | 软件 定义 存储 | | 存储 虚拟 化 | 软件 定义 存储 
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相 比 于 存储 虚拟 化 ， 软 件 定义 存储 有 如 下 优点 : 


:时间 开销 减少 ， 控 制 层 与 数据 层 分 离 ， 使 得 用 户 能 够 更 加 关注 控制 层 ， 减 少 了 数据 层 虚 拟 化 的 开销 ， 而 且 使 得 用 户 操作 更 加 灵活 和 方便 。 
" 数据 层 的 可 扩展 性 高 ， 由 于 软件 定义 存储 不 需要 关注 数据 存储 方式 ， 因 此 可 扩展 性 更 高 ， 不 仅 可 以 跨 不 同 的 存储 产品 ， 而 且 可 以 跨 数据 中 心 。 
数据 监控 性 和 数据 安全 性 高 ， 由 于 软件 定义 存储 提供 了 足够 的 API 调 用 底层 的 信息 ， 因 此 数据 监控 更 加 方便 ， 而 且 控 制 层 不 能 影响 数据 层 访 问 方 式 ， 数据 存 储 的 安全 性 增强 。 


隔离 更 易 实 现 ， 当 数据 动态 传递 以 及 共享 时 ， 由 于 同一 物理 设备 有 其 不 同 的 数据 层 和 对 应 的 控制 层 ， 存 储 虚 拟 化 对 不 同 虚 拟 用 户 访问 同一 物理 设备 做 隔离 时 不 仅 要 在 数据 层 做 隔离 ， 而 且 要 在 控制 层 
; 而 软件 定义 的 存储 由 于 共享 同一 个 控制 层 ， 因 此 隔离 操作 时 在 控制 层 相对 容易 ， 主 要 精力 放 在 数据 层 隔 离 。 


En 
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3.3 ”架构 、 功 能 与 特性 


从 某 个 角度 来 说 ， 可 以 把 现 有 的 存储 产品 (SAN/NAS) 看 成 是 业界 标准 硬件 (磁盘 、RAID 控 制 卡 、 处 理 器 、 内 存 、 缓 存 等 ) ， 以 及 在 这 基础 之 上 运行 的 软件 层 (提供 存储 访问 、 各 种 管理 功能 和 数据 
服务 等 ) ; 对 于 内 置 存 储 或 DAs 来 说 则 只 是 一 堆 硬 件 的 集合 ， 不 存在 附加 的 软件 层 。 类 似 于 软件 定义 网 络 ， 软 件 定 义 存 储 首先 要 把 其 中 的 软件 (管理 功能 与 数据 服务 ) 层 分 离 出 来 ， 通 过 集中 化 的 控制 管 
理 ， 形 成 一 个 统一 的 虚拟 化 的 新 层 。 软 件 定义 存储 的 关键 特征 包括 : 


“ 将 存储 设备 的 功能 抽象 为 控制 模块 与 数据 模块 ， 并 把 控制 模块 从 硬件 中 分 离 出 来 。 


+ 控制 模块 以 纯 软 件 实现 ， 能 够 适用 于 不 同类 型 的 数据 模块 ， 从 而 适 配 现 有 的 存储 设备 (Bring Your Own Device, BYOD) 。 不 同 于 SDN 的 是 ， 这 里 的 存储 设备 差异 性 更 大 ， 我 们 将 看 到 各 种 不 同 程度 的 


软件 实现 。 

. 有 一 个 集中 的 存储 控制 器 ， 通 过 存储 设备 上 的 控制 模块 建立 对 所 有 设备 的 控制 。 需 要 注意 的 是 ， 这 里 的 集中 控制 是 逻辑 上 的 ， 实 现 的 时 候 基于 良好 的 性 能 和 高 可 用 性 的 考虑 ， 可 能 采用 分 布 式 集群 化 
的 设计 。 

- 数据 服务 从 存储 设备 中 抽象 与 分 离 出 来 ， 作 为 可 编程 的 资源 ， 通 过 控制 模块 提供 的 接口 (API) 对 外 提供 。 

. 适合 软件 定义 数据 中 心 和 云 计算 平台 的 新 特性 ， 包 括 多 租户 模式 、 数 据 服 务 动态 定制 等 。 


. 规范 的 组 件 设计 与 灵活 的 编程 接口 ， 与 系统 中 其 他 组 件 具 有 良好 的 互 操作 性 。 


3.3.1 数据 模块 与 控制 模块 


对 于 存储 来 说 ， 目 前 还 缺少 一 个 类 似 于 OpenFlow 的 业界 标准 ， 即 一 种 支持 动态 编程 的 统一 接口 (API) ， 可 以 用 来 定义 从 存储 的 “数据 模块 ” (Data Plane) 分 离 出 来 的 “控制 模块 ” (Control 
Plane) ， 从 而 实现 对 各 种 数据 服务 的 定义 与 管理 。 对 于 目前 的 数据 中 心 来 说 ， 通 常 存 在 各 种 不 同 的 存储 产品 ， 其 规划 与 使 用 并 不 是 整齐 划一 的 。 不 同 的 存储 产品 有 着 不 同 的 管理 和 控制 接口 ， 其 功能 或 多 或 
少 ， 其 性 能 (服务 级 别 ) 也 不 尽 相 同 ， 这 就 使 得 存储 的 管理 变 得 十 分 繁琐 。 对 于 软件 定义 存储 来 说 ， 需 要 做 的 就 是 实现 一 个 存储 控制 器 (Controller) ， 通 过 统一 的 接口 对 存储 设备 上 分 离 出 来 的 控制 模块 


进行 管理 。 


常见 的 存储 设备 数据 模块 ， 也 就 是 数据 访问 接口 ， 包 括 @ 块 设备 (Block) 访问 方式 : 光纤 通道 (FC) . iSCSI, Inifinibandss; Qf (File) 访问 方式 : NFS, CFSE; OXR (Object) 访问 方 
zb: Amazon S3, OpenStack Swift 等 。 不 同 于 存储 虚拟 化 ， 软 件 定义 存储 并 不 寻求 将 数据 模块 虚拟 化 从 而 提供 统一 的 访问 接口 ， 而 是 让 服务 器 直接 连接 底层 的 存储 设备 。 这 样 的 设计 很 大 程度 上 是 出 于 性 
能 的 考虑 ， 因 为 数据 模块 通常 需要 低 延 时 ( 微 秒 级 到 毫秒 级 ) 和 高 带宽 (Gbps) 。 


存储 设备 的 控制 模块 ， 也 就 是 管理 与 配置 接口 ， 包 含 但 不 限于 管理 界面 (GUI/CLI) 、 编 程 接 口 (API) 、 监 控 、 日 志 、 安 全 等 ， 简 而 言 之 就 是 除了 数据 模块 以 外 的 其 他 功能 模块 。 控 制 模块 对 延 时 (38 
秒 级 到 秒 级 ) 和 带宽 通常 都 没有 特别 的 要 求 ， 因 此 将 控制 模块 分 离 出 来 ， 并 通过 集中 的 控制 器 进行 统一 管理 ， 并 不 会 成 为 性 能 上 的 瓶颈 。 


需要 指出 的 是 ， 人 存储 API 的 统一 化 的 努力 并 不 是 刚刚 开始 的 ， 其 中 一 个 例子 就 是 SMI-S (Storage Management Initiative Specification) 。SMI-S 是 由 全 球 存 储 网 络 工业 协会 (Storage Network 
Industry Association, SNIA) 发 起 并 主导 、 众 多 存储 厂商 共同 参与 开发 的 一 种 标准 管理 接口 (参见 图 3-6) ， 其 目标 是 在 存储 网 络 中 的 存储 设备 和 管理 软件 之 间 提 供 标 准 化 的 通信 方式 ， 从 而 使 存储 管理 实 
现 厂 商 无 关 性 ， 提 高 管理 效率 ， 降 低 管理 成 本 ， 促 进 人 存储 网 络 的 发 展 。 但 是 SMI-S 的 发 展 一 直 比 较 保 守 ， 十 多 年 来 被 公众 接受 的 程度 一 直 处 于 不 温 不 火 的 状态 。 而 且 这 一 标准 也 缺乏 对 服务 抽象 、 多 租户 模 
式 等 新 特性 的 支持 ， 并 不 符合 软件 定义 数据 中 心 以 及 云 计算 平台 的 新 需求 。 
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3.3.2 ”系统 架构 设计 


就 软件 定义 存储 而 言 ， 目 前 业界 有 很 多 不 同 的 解决 方案 。 相 对 于 软件 定义 网 络 解 决 方案 的 同 质 化 ， 软 件 定义 存储 的 方案 彼此 之 间 可 能 存在 相当 大 的 不 同 。 例 如 有 些 产 品 是 针对 数据 中 心里 已 有 的 存储 设 
备 (SAN/NAS) 进行 管理 ， 而 另外 一 些 则 基于 商业 化 (Commodity) 服务 器 上 的 内 置 磁盘 与 DAS， 有 一 些 是 通用 的 解决 方案 ， 另 外 一 些 则 专 为 虚拟 化 平台 优化 。 虽 然 这 些 解 决 方案 之 间 可 能 存在 诸多 的 差 
异 ， 但 大 致 上 仍然 可 以 把 软件 定义 存储 分 成 三 个 层次 : 数据 保持 、 数 据 服务 与 数据 消费 (如 图 3-7 所 示 ) 。 


ee Ei a eo 


数据 消沉 数据 表现 、 租 户 门 户 、API、 工 作 流 集成 、 度 量 、 监 控 等 


数据 服务 快照 、 数 据 找 贝 、 分 层 、 缓 存 、 融 合 、 去 重 、 压 缩 、 加 密 
数据 保护 RAID, RAIN, fg 


图 3-7 SDS: 将 存储 功能 解放 出 来 


最 底层 是 数据 保持 层 ， 这 是 存储 数据 最 终 被 保存 的 地 方 。 这 一 层 负责 的 工作 相对 比较 简单 : 将 数据 保存 到 存储 媒介 中 (通常 是 各 种 磁盘 或 者 固态 硬盘 (Fash) ) ， 并 保证 之 后 能 够 完整 地 读 取 出 


IG 


来 。 保 持 数 据 的 方式 有 很 多 种 ， 具 体 的 选择 取决 于 你 对 成 本 、 效 率 、 性 能 、 元 余 率 、 可 扩展 性 等 指标 的 需求 ， 也 取决 于 你 需要 SATA 磁 盘 、SCSI 磁 盘 还 是 固态 磁盘 等 不 同 的 因素 。 此 外 ， 由 于 这 部 分 功能 经 过 


了 虚拟 化 的 抽象 ， 我 们 可 以 根据 需要 选择 各 种 不 同 的 方案 。 这 样 的 选择 并 不 会 影响 到 上 层 数 据 服务 和 数据 消费 的 选择 与 实现 。 常 见 的 数据 保持 方法 包括 : 磁盘 阵列 (RAID) 、 基 于 廉价 节点 的 匈 余 阵 列 


(RAIN) 、 纠 删 码 (Erasure Coding) 及 简单 副本 (Replica) 等 。 其 中 简单 副本 (Replica) 由 于 实现 简单 直接 (通常 不 够 经 济 ) ， 在 一 些 实验 性 的 工作 或 者 是 一 些 产 品 的 早期 版 本 中 ， 采 用 较 多 ， 适 用 于 
对 元 余 率 (>2) 不 是 特别 敏感 的 场合 。 


磁盘 阵列 (Redundant Arrays of Independent Disks, RAID) 是 我 们 最 熟悉 的 数据 保持 方法 ， 也 是 传统 存储 设备 上 普遍 采用 的 经 典 方案 。RAID 将 多 块 磁盘 组 成 一 个 逻辑 单元 ， 用 于 提供 数据 元 余 以 
及 更 好 的 读 写 性 能 。 根 据 不 同 的 实现 方案 ， 用 户 数据 被 分 布 在 多 个 磁盘 上 ， 通 常 称 之 为 RAID 级 别 。 具 体 的 RAID 级 别 选择 取决 于 对 可 靠 性 与 性 能 的 需求 (参见 图 3-8) 。 其 中 比较 常见 的 有 @RAID 0: 数据 分 
条 (Striping) ， 数 据 按 固定 大 小 分 割 ， 被 平均 分 配 到 多 个 磁盘 中 ， 拥 有 并 发 读 写 带 来 的 性 能 提升 ， 但 没有 任何 可 靠 性 保证 (无 元 余 ) ; ORAD 1: 完全 镜像 ， 数 据 被 完全 复制 到 每 一 个 磁盘 上 ， 具 有 最 高 
的 可 靠 性 (NRE) 但 不 具 经 济 性 ; ORAID 5: 需要 一 块 额 外 的 磁盘 提供 了 见 余 ， 但 是 校 验 数据 是 平均 分 配 到 每 一 块 磁盘 上 的 ， 可 以 容忍 /修复 最 多 一 块 磁盘 的 错误 。RAID 5 一 个 常见 的 变种 是 RAID 6， 需 要 
两 块 额外 的 磁盘 提供 元 余 。 除 此 之 外 还 有 一 些 组 合 使 用 的 RAID 级 别 ， 例 如 RAID 0+1。 


RAID 0 RAID | 


Disk 0 Disk 1 Disk 0 Disk | Disk 0 Disk 1 Disk > Disk 3 
图 3-8 ”常见 的 磁盘 阵列 配置 


基于 廉价 节点 的 元 余 阵 列 (Redundant Arrays of Inexpensive Nodes, RAIN) 。VMware 的 软件 定义 存储 产品 VSAN 就 是 基于 RAIN 架构 的 。RAIN 来 源 于 RAID 技 术 ， 与 其 不 同 的 是 ，RAIN 并 不 服务 


于 单一 系统 ， 而 是 将 存储 扩展 到 网 络 中 多 个 节点 。 换 言 之 ，RAIN 就 是 一 个 由 网 络 连 接 的 存储 集群 。RAIN 的 元 余 机 制 能 够 保证 自动 化 的 数据 恢复 ， 即 使 局 域 网 或 广域网 中 的 多 个 成 员 节点 出 现 问题 。 相 对 于 
RAID 而 言 ，RAIN 有 着 更 好 的 可 扩展 性 ， 理 论 上 一 个 RAIN 集群 可 以 容纳 任意 多 个 节点 。 当 有 新 节点 加 入 的 时 候 ， 原 存储 集群 仍 会 继续 工作 ， 不 需要 额外 的 下 线 维护 等 操作 。RAIN 采 用 了 一 种 开放 性 的 体系 


架构 ， 充 分 利用 了 网 络 、 分 布 式 计算 、 智 能 的 管理 与 数据 恢复 等 多 种 技术 。 基 于 RAIN 的 存储 系统 一 般 包 括 以 下 组 件 : 


TRA: 任何 普通 的 商业 化 服务 器 都 可 以 成 为 存储 节点 。 简 而 言 之 ， 服务 器 上 的 磁盘 用 于 提供 存储 空间 ， 网 卡 用 于 数据 传输 ，CPU 运 行 管理 软件 。 用 户 数据 被 分 散 存 储 在 多 个 节点 上 ， 并 通过 元 余 
机 制 与 数据 恢复 机 制 保证 其 可 靠 性 。 


- TCP/IP 网 络 : RAIN 节点 之 间 可 以 通过 任何 基于 TCP/IP 协 议 的 网 络 连接 ， 不 管 是 局 域 网 、 广 域 网 还 是 因特网 。 这 样 存储 管理 员 甚至 可 以 创建 一 个 跨 数据 中 心 (不同 地 理 位 置 ) 的 存储 集群 ， 只 要 保证 
网 络 连通 性 以 及 一 定 的 服务 质量 即 可 。 


UE: 通过 运行 在 存储 节点 上 的 管理 软件 ， 节 点 之 间 可 以 持续 地 互相 交换 信息 ， 包 括 容量 、 性 能 、 健 康 数据 等 。 此 外 管理 软件 可 以 自动 探测 到 新 节点 的 加 入 ， 并 引导 其 完成 自 配置 过 程 。 管 理 软 
件 将 所 有 的 存储 节点 转化 为 一 个 虚拟 的 存储 池 ， 并 负责 所 有 的 数据 恢复 过 程 。 


Ta 数据 生命 周期 管理 软件 用 于 增加 系统 整体 的 可 靠 性 。 以 创新 性 的 虚拟 化 、 压 缩 、 版 本 控制 、 加 密 、 自 动 修复 和 复制 算法 取代 了 传统 的 快照 、 备 份 、 镜 像 等 数据 管理 工具 。 为 
保证 用 户 数据 的 可 靠 性 ， 存 储 节点 会 周期 性 地 检查 本 地 数据 的 健康 状况 。 当 探测 到 文件 损坏 的 时 候 ， 当 前 的 存储 节点 会 向 所 有 其 他 节点 发 出 复制 请 求 ; 收 到 请 求 的 节点 会 验证 本 地 副本 的 完整 性 ， 并 启动 数 
据 修 复 机 制 替 换 损 坏 的 文件 。 


纠 删 码 (Erasure Coding, EC) 是 源 于 通信 和 领域 的 一 种 前 向 纠 错 编 码 ， 可 以 用 较 低 的 元 余 率 换取 较 高 的 可 靠 性 。 这 种 编码 是 将 数据 分 割 成 多 个 数据 块 ， 并 把 额外 的 信息 追加 到 每 个 数据 块 中 ， 人 允许 从 一 
些 数据 块 的 子 集 复原 完整 的 数据 集 (原理 参见 图 3-9) 。 如 果 将 一 个 数据 文件 划分 为 n 个 等 长 的 数据 块 (不 足 部 分 以 0 填充 ) ， 通 过 编码 生成 m 个 校 验 块 ， 并 将 校 验 信息 分 布 到 其 中 ， 然 后 根据 其 中 任意 n 个 分 
块 就 可 恢复 出 原文 件 ， 而 少 于 n 个 分 块 无 法 获取 原文 件 ， 这 样 能 容忍 多 达 m 个 任意 节点 的 失效 。 这 种 情况 下 整体 的 存储 元 余 率 为 (m+n) /n。 


图 3-9 2mm r4 AR E 


纠 删 码 在 面 对 自然 灾难 或 技术 故障 时 具有 很 好 的 恢复 能 力 ， 只 需要 数据 块 的 一 个 子 集 (只 关心 数量 ， 可 选取 任意 节点 ) 就 可 以 恢复 原始 数据 。 纠 删 码 更 适合 用 于 大 数据 集 ， 特 别 适 合 云 计算 和 分 布 式 存 
储 ， 因 为 它 不 用 复制 数据 集 就 可 以 跨 多 个 地 理 位 置 分 布 数据 。 一 个 典型 的 编码 就 是 里 德 一 所 罗 门 码 (Reed-Solomon) ， 被 广泛 应 用 于 各 种 商业 用 途 。EMC 的 云 存 储 产 品 Atmos 就 采用 了 Erasure Code 技 
术 。 

在 数据 保持 层 之 上 为 数据 服务 层 。 这 一 层 组 件 的 主要 职责 就 是 数据 的 移动 : 快照 (Snapshot) 、 复 制 (Replication) 、 分 层 (Tiering) 、 备 份 (Backup) 、 缓 存 (Cache) ， 其 他 的 职责 还 包括 去 重 

(Deduplication) 、 压 缩 (Compression) 、 加 密 (Encryption) 、 病 毒 扫 描 (Virus Scan) 等 。 在 某 些 软件 定义 存储 的 解决 方案 中 ， 把 一 些 新 兴 的 存储 类 型 也 归 入 数据 服务 中 ， 例 如 对 象 存储 (Object 


Storage) 和 Hadoop 文 件 系 统 (HDFS) 等 。 


细心 的 读者 可 能 已 经 发 现 这 里 的 复制 (Replication) 看 上 去 很 像 数据 保持 层 的 副本 (Replica) ,其实 不 然 。 副 本 只 是 最 简单 的 一 种 数据 元 余 机 制 ， 防 止 硬件 问题 引起 的 数据 丢失 ， 对 用 户 来 说 是 完全 透 
明 的 ; 而 复制 作为 一 种 附加 的 数据 服务 (数据 保护 ) ， 多 用 于 高 可 用 性 的 实现 、 远 程 数 据 恢复 (Data Recovery) 等 场景 ， 其 中 一 个 非常 有 特色 的 产品 就 是 EMC 的 RecoverPoint， 有 兴趣 的 读者 可 以 详细 了 
解 一 下 ， 这 里 不 再 展开 介绍 。 


在 理想 的 情况 下 ， 数 据 服务 独立 于 下 层 (数据 保持 ) MEE (数据 消费 ) ， 与 其 具体 技术 实现 不 存在 依赖 关系 。 同 样 ， 由 于 经 过 了 虚拟 化 和 抽象 ,数据 服务 得 以 从 存储 设备 (物理 盒子 ) 中 分 离 出 来 ， 
可 以 按 需 动态 创建 (Provisioning) ， 具 有 很 大 的 灵活 性 。 创 建 出 来 的 数据 服务 可 以 根据 软件 定义 存储 控制 器 的 统一 调度 ， 运 行 在 任何 一 个 合适 的 服务 器 或 者 存储 设备 上 (当然 也 可 以 部 署 在 数据 所 在 的 设 
fat). 


最 上 面 是 数据 消费 层 ， 是 最 贴近 用 户 的 一 个 层次 。 这 里 首先 展现 给 用 户 的 是 一 系列 数据 访问 接口 (Presentation) ， 包 括 块 存储 (Block) 、 文 件 存 储 (File) 、 对 象 存储 (Object) 、Hadoop 文 件 系 
统 (HDFS) 以 及 其 他 随 着 云 计算 与 大 数据 出 现 的 新 兴 访 问 接口 。 数 据 消 费 层 的 另 一 个 重要 组 成 部 分 是 展现 给 用 户 /租户 的 门户 (Tenant Portal) ， 也 就 是 每 个 用 户 的 管理 平台 (GUI/CLI) 。 这 是 一 个 专属 
的 环境 ， 可 以 由 每 个 用 户 自己 动态 定制 ， 它 的 功能 包括 但 不 限于 : 部 团 (Provisioning) 、 监 控 (Monitoring) 、 事 件 /警报 管理 、 资 源 的 使 用 、 报 表 生成 、 流 程 管理 等 。 此 外 用 户 也 可 以 在 专属 门户 内 定制 
所 需 的 数据 服务 ， 可 管理 的 服务 参见 前 文 介 绍 。 


灵活 的 编程 接口 (API) 也 是 这 一 层 的 核心 组 件 ， 用 于 更 好 地 支持 存储 与 用 户 应 用 的 整合 。 与 普通 的 编程 接口 相 比 ， 软 件 定义 存储 的 接口 有 着 更 高 的 标准 和 更 多 的 功能 需求 。 软 件 定义 存储 作为 软件 定义 
数据 中 心 的 一 个 核心 组 成 部 分 ， 与 系统 中 的 其 他 组 件 (软件 定义 计算 、 软 件 定义 网 络 ) 存在 大 量 的 交互 ， 因 此 对 互 操作 性 (Interoperability) 有 着 很 高 的 要 求 。 关 于 组 件 之 间 互 操作 与 协同 工作 的 详细 内 容 
可 参见 后 续 章 节 。 此 外 ， 随 着 云 计算 平台 (如 Openstack) 和 大 数据 的 流行 ， 也 需要 这 一 层次 提供 相应 的 接口 ， 满 足 一 系列 的 新 兴 需 求 (如 多 租户 模式 的 支持 与 管理 、 接 入 虚拟 网 络 的 支持 等 ) 。 


最 后 ， 得 益 于 虚拟 化 的 支持 ， 数 据 消费 层 同样 也 相对 独立 于 底部 各 层 。 这 里 的 各 种 实体 ， 包 括 前 面 提 到 的 用 户 专属 的 门户 ， 都 可 以 动态 按 需 部 署 ， 具 有 相当 高 的 灵活 性 (参见 图 3-10) 。 从 这 一 视角 来 
看 ， 底 部 各 层 提供 的 是 一 个 统一 的 虚拟 化 资源 池 ， 所 有 实体 都 基于 此 分 配 、 创 建 与 管理 。 
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34 ”解决 万 案 : 分 类 与 比较 


在 本 小 节 中 ， 首 先 会 介绍 一 些 分 类 方法 ， 包 括 业 界 提出 的 和 笔者 提出 的 ; 然后 会 对 目前 市 场 上 林林总总 的 产品 和 解决 方案 作 一 个 概括 介绍 ; 最 后 根据 其 中 一 些 分 类 方法 进行 产品 映射 ， 以 表格 的 形式 为 
读者 作 简 单 的 产品 比较 。 


这 些 分 类 方法 中 ， 分 类 项 可 能 并 不 会 完全 区 分 一 个 存储 平台 ， 也 可 能 一 个 软件 定义 存储 平台 同时 属于 几 个 类 中 。 


(1) 数据 组 织 形式 (Data Organization) 


数据 的 组 织 形式 对 任何 一 个 存储 平台 来 说 都 是 最 关键 的 架构 属性 ， 对 于 软件 定义 存储 来 说 也 是 这 样 。 每 个 软件 定义 存储 平台 所 支持 的 以 及 对 外 所 能 提供 的 数据 访问 形式 都 不 一 样 ， 根 据 这 点 ， 软 件 定义 
存储 可 以 分 为 以 下 三 类 : 


1) 文件 存储 : 利用 文件 系统 组 织 数据 。 文 件 系 统 可 以 只 限定 被 某 一 节点 或 者 控制 器 访问 ， 也 可 以 被 多 个 节点 或 控制 器 共享 访问 。 
2) 对 象 存 储 : 对 象 存储 不 像 文件 存储 中 利用 目录 层次 树 结构 ， 而 是 完全 扁平 化 存储 ， 即 可 以 根据 对 象 的 id 直 接 定位 到 数据 的 位 置 。 


3) 块 存储 : 块 存储 是 指数 据 以 块 的 形式 进行 组 织 ， 像 逻辑 卷 管理 器 中 的 机 制 一 样 。 物 理 资 源 先 组 织 成 磁盘 或 者 RAID 组 ， 然 后 再 组 织 成 逻辑 结构 比如 卷 (Volume) ， 卷 之 后 会 以 逻辑 单元 (LUN) 的 
形式 向 用 户 提 供 。 


(2) 数据 持久 存储 (Persistent Data Store) 


数据 持久 存储 是 指 软件 定义 存储 平台 用 来 持久 化 存储 数据 的 物理 或 逻辑 存储 单元 。 软 件 定 义 存 储 平台 既 可 以 有 效 利 用 低 延 时 、 高 带宽 的 物理 资源 ， 又 可 以 利用 高 延 时 、 低 带宽 的 逻辑 资源 。 根 据 存 储 资 
源 的 不 同 ， 软 件 定义 存储 平台 可 以 分 为 以 下 四 类 : 


1) 服务 器 内 部 存储 : 这些 资 源 是 指 服 务 器 内 部 的 磁盘 、 闪 人 存 卡 等 。 基 本 上 ， 任 何 服务 器 内 部 的 非 易 失 数据 存储 都 可 以 充当 这 类 系统 的 人 存储 资源 。 此 外 ， 服 务 器 直 连 存储 (DAS) 通常 也 被 包括 在 这 一 类 


别 中 。 
2) 外 部 存储 系统 : 指 的 是 SAN 和 NAs 这 些 传 统 存 储 系统 。SDs 平 台 并 不 区 分 不 同 的 外 部 存储 系统 ， 只 需要 按照 SDs 平 台 的 要 求 进行 数据 持久 化 存储 。 
3) 对 象 存储 : 目前 ， 在 对 象 存储 系统 上 面 构建 SDS 平 台 正 成 为 趋势 。 在 这 样 的 系统 里 面 ， 对 象 存储 系统 充当 持久 化 数据 仓库 的 作用 ， 里 面 的 数据 通过 编程 接口 (AREST API) 进行 访问 。 


4) 云 存 储 : 就 像 使 用 对 象 存 储 系统 充当 持久 数据 存储 一 样 ， 公 有 云 或 者 私有 云 也 可 以 充当 这 个 角色 ， 使 数据 可 以 被 远程 存储 或 者 访问 。 目 前 ，Panzura、TwinStrata 和 CTERA 等 广 商 的 方案 都 利用 开放 
的 API 访 问 云 资源 。 这 类 方案 里 面 通常 会 有 一 个 本 地 持久 存储 层 充当 缓存 的 作用 。 


(3) 发 布 模式 (Delivery Model) 


发 布 模式 是 指 人 存储 三 商 以 何 种 形式 向 用 户 提供 软件 定义 存储 平台 。 传 统 的 发 布 模式 都 是 捆绑 硬件 为 主 的 ， 这 样 大 多 数 用 户 并 没有 在 自己 的 硬件 平台 上 安装 软件 定义 存储 平台 的 机 会 。 在 新 的 时 代 ， 这 种 
情况 正在 变化 ， 供 应 商 们 正在 以 各 种 不 同 的 形式 向 用 户 发 布 他 们 的 软件 定义 存储 平台 : 


1) 纯 软件 : 这 种 模式 下 ， 供 应 商 将 SDS 平 台 定 义 为 可 以 下 载 或 者 购买 的 软件 ， 用 户 可 以 自由 将 它 安装 在 硬件 平台 或 者 虚拟 机 上 面 。 这 种 软件 模式 也 正在 快速 流行 它 的 DIY 的 方式 使 得 用 户 可 以 经 济 地 构 
建 大 型 的 数据 存储 环境 。 具 体 如 ScalelO、DataCore SANsymphony-V 和 Coraid 等 。 


2) 一 体 化 虚拟 机 (Virtual Appliance) : 在 这 种 模式 下 ， 供 应 商 以 虚拟 机 的 形式 向 用 户 发 布 SDs 平 台 。 大 多 数 供应 商都 支持 市 场 上 主流 的 虚拟 化 平台 (VMware/XEN/KVM) 。 这 一 类 别 的 典型 例子 
就 是 EMC ViPR。 


3) RATHA (Embedded Connector) : 尽管 这 并 不 是 一 种 新 的 模式 ， 但 是 它 经 常 被 供应 商 利 用 ， 从 而 将 他 们 的 SDS 平 台 嵌 入 到 物理 服务 器 或 虚拟 机 上 运行 的 虚拟 化 平台 或 操作 系统 中 。VMware 
vSAN 和 Atlantis Computing 的 产品 采用 这 种 模式 。 


(4) 存储 服务 (Storage Services) 


软件 定义 存储 平台 具体 能 提供 哪些 人 存储 服务 也 是 区 分 这 些 平 台 的 一 种 方式 ， 另 外 对 于 不 同 的 平台 ， 它 提供 这 些 服务 的 实现 方式 也 是 不 一 样 的 。 下 面 我 们 就 列举 几 个 对 于 软件 定义 存储 平台 必须 满足 的 服 


1) 自动 化 编排 (Orchestration) : 在 服务 层 和 数据 组 织 层 之 间 的 一 个 抽象 屋 ， 可 以 提供 很 多 功能 。 对 于 支持 多 路 径 的 软件 特别 是 支持 多 个 存储 系统 的 软件 来 说 是 必须 的 。 
2) 服务 质量 (Service Quality) : 对 于 存储 平台 来 说 ， 服 务 质 量 包 括 弹 性 、 扩 展 性 、 灵 活性 、 可 用 性 和 可 靠 性 等 。 换 句 话说 ， 软 件 定义 存储 平台 对 这 些 特征 所 能 提供 的 服务 质量 是 有 区 别 的 。 
3) 数据 移动 性 (Data Mobility and Federation) : 代表 软件 定义 存储 平台 对 于 不 同 资源 的 数据 迁移 和 联动 的 能 力 。 


4) 元 数据 与 属性 管理 (Metadata/Attribute Management) : 软件 定义 存储 平台 极 大 地 依赖 于 元 数据 仓库 来 管理 数据 。 对 于 分 布 式 文件 系统 和 对 象 平台 来 说 ， 它 们 可 以 智能 地 存 取 数据 ， 这 些 系统 更 
加 依赖 元 数据 管理 。 元 数据 仓库 记录 了 数据 的 管理 和 维护 属性 ， 可 以 集中 存储 也 可 以 分 布 式 存储 。 


5) 编程 接口 (API) : 很 多 软件 定义 存储 平台 提供 了 inbound (外 部 应 用 控制 SDS) 和 outbound (SDS 访 问 其 他 存储 ) 的 API 访 问 。 这 些 API 访 问 接口 越 来 越 重要 ， 它 们 可 以 将 软件 定义 存储 平台 链接 
到 一 个 更 大 的 生态 系统 (例如 SDDC 与 云 计算 平台 ) 上 面 ， 使 得 软件 定义 存储 平台 可 以 被 数据 中 心 上 的 自动 化 编排 工具 访问 、 控 制 和 管理 。 


2. 我 们 倾向 的 分 类 方案 
对 于 软件 定义 存储 ， 我 们 倾向 于 如 下 两 种 分 类 方法 : 对 上 所 担当 的 角色 (North Bound) 和 所 管理 的 资源 类 型 (South Bound) 。 
(1) 所 管理 的 资源 类 型 
按照 其 所 管理 的 存储 资源 的 不 同 ， 可 以 分 为 以 下 几 类 。 这 一 分 类 在 前 面 介绍 数据 持久 存储 时 已 有 所 描述 ， 这 里 再 简单 列 出 。 
1) 服务 器 (Server) : 其 所 管理 的 是 服务 器 上 的 资源 ， 如 内 置 磁盘 等 ， 上 典型 的 产品 有 EMC 的 ScalelO 和 和 VMware 的 vSAN 等 。 
2) 外 置 存储 (Storage Array) : 其 所 管理 的 是 专门 的 存储 系统 ， 比 如 SAN、NAS 等 。 典 型 产品 有 EMC 的 ViPR.。 
3) 混合 (Mixed) : 既 管 理 服务 器 内 的 存储 ， 又 管理 专门 的 存储 系统 。 比 如 IBM 的 Virtual Storage Center, 
4) VRF (Object) : 其 所 管理 的 是 对 象 存 储 平 台 。 
5) 云 资 源 (Cloud) : 这 类 系统 管理 的 是 公有 云 或 者 私有 云 上 的 存储 资源 。 
(2) 对 上 所 担当 的 角色 
根据 该 软件 定义 存储 平台 对 上 提供 的 功能 来 说 ， 可 以 大 致 分 为 以 下 两 类 : 


1) 通用 的 存储 平台 (General Purpose) : 该 平台 是 为 了 实现 一 个 通用 的 存储 平台 ， 将 各 种 不 同 的 存储 资源 进行 整合 ， 提 供 通 用 的 存储 服务 。 典 型 实例 如 EMC 的 ViPR 和 DataCore 的 SANsymphony- 


2) 专门 为 虚拟 化 优化 (Optimized for Virtualization) : 专门 为 了 对 虚拟 化 进行 优化 而 实现 该 平台 。 比 如 说 VMWare 公 司 的 vSAN 产 品 。 


3.4.2” 现 有 产品 简介 


目前 很 多 存储 提供 商都 声称 它们 的 产品 是 软件 定义 存储 。 根 据 前 面 的 分 类 ， 我 们 在 这 一 小 节 会 罗列 目前 市 场 上 主要 的 软件 定义 存储 平台 ， 对 每 个 平台 我 们 并 不 详细 介绍 ， 有 些 平台 只 会 附 上 相应 的 链 
接 ， 有 兴趣 的 读者 可 以 自行 了 解 。 在 3.6 节 中 我 们 会 详细 介绍 两 个 典型 的 软件 定义 存储 方案 : ViPR 和 ScalelO。 


1.NetAPP (Data ONTAP) 
对 于 NetAPP 公 司 来 说 ， 它 使 用 以 下 方式 来 实现 所 谓 的 软件 定义 存储 : 
1) 对 于 传统 的 文件 存储 和 块 存储 ，NetAPP 公 司 会 使 用 ONTAP 模 式 创 建 一 个 资源 池 从 而 可 以 分 配给 不 同 的 应 用 ; 


2) 如 果 有 第 三 方 存 储 ，NetAPP 公 司 会 将 V-series 控 制 器 作为 JBOD 使 用 。 


Multiprotocol Access (NFS/CIFS/FC/iSCSI/FCoE) 
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图 3-11 ONTAP 集 群 架 构图 
但 是 对 于 NetAPP 公 司 的 产品 ， 支 持 文件 存 储 和 块 存储 的 产品 并 不 支持 对 象 存储 ， 反 之 亦 然 。 对 于 NetAPP 公 司 的 软件 定义 存储 来 说 ， 它 们 本 质 上 是 存储 虚拟 化 的 产品 ， 它 可 以 虚拟 化 已 有 的 外 置 存储 阵 
列 ， 将 它们 加 入 一 个 存储 资源 池 (通过 ONTAP， 参 见 图 3-11) 。 有 关 Data ONTAP 的 内 容 读者 可 以 参见 文献 [43]。 
2.IBM (Virtual Storage Center) 


对 IBM 公 司 来 说 ， 主 要 的 软件 定义 存储 产品 是 I|BM SmartCloud Virtual Storage Center (VSC) 。 它 可 以 在 异 构 的 存储 系统 中 提供 有 效 的 虚拟 化 和 管理 (参见 图 3-12) 。VSC 可 以 让 用 户 方便 快速 地 
迁移 到 一 个 敏捷 的 云 架 构 中 ， 从 而 优化 存储 的 可 用 性 和 性 能 ， 并 降低 开销 成 本 。 简 单 来 说 ，Virtual Storage Center 产 品 有 以 下 的 特征 : 


1) 内 置 的 性 能 工具 ， 可 以 有 效 降 低 人 存储 管理 时 间 和 开销 ; 
2) 自 优 化 的 存储 ， 可 以 随 着 工作 负载 的 改变 进行 自动 优化 和 调整 , 
3) 接近 实时 的 备份 和 恢复 功能 。 
具体 有 关 VSC 的 详细 介绍 ， 可 以 参见 文献 [45]。 
3.HP (StoreVirtual) 
HP 公司 的 产品 StoreVirtual 主 要 针对 远程 办 公 的 市 场 。 通 过 StoreVirtual， 你 可 以 虚拟 化 VSA 和 DAS。 对 于 StoreVirtual 系 列 产品 来 说 ， 它 可 以 对 用 户 提供 以 下 功能 : 利用 已 有 的 服务 器 和 存储 创建 一 个 


虚拟 的 SAN， 支 持 企 业 级 远程 办 公 或 者 独立 的 公有 云 ， 适 合 于 小 公司 ; 在 刀片 机 或 者 商用 机 上 面部 署 存 储 平台 。StoreVirtual 对 于 不 同 的 用 户 ， 有 不 同 的 产品 可 供 选 择 。 具 体内 容 请 参见 文献 [46]。 


4.Nexenta 


Nexenta 公 司 和 软件 定义 存储 有 关 的 产品 有 Nexentastor 和 Nexenta MetroHA。NexentaStor 是 一 个 全 功能 的 针对 NAS 和 SAN 的 软件 平台 ， 可 以 利用 各 种 存储 软 硬 件 创建 存储 共享 池 ; 可 以 提供 诸如 
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图 3-12 IBM VSCE E Rw 


5.EMC (ViPR, ScalelO) 


ScalelO 由 EM 公司 在 2013 年 收购 。ScalelO 是 可 以 在 普通 的 x86 服 务 器 集群 上 创建 弹性 、 可 扩展 的 虚拟 SAN 的 软件 。ViPR 是 一 个 轻 量 级 的 软件 解决 方案 ， 可 以 很 方便 地 把 已 存在 的 存储 环境 转化 成 为 一 
个 简易 、 可 扩展 、 开 放 以 及 全 自动 的 软件 定义 存储 平台 。 


6.VMWare (vSAN) 


VSAN 是 在 VMworld 2013 大 会 上 由 EMC 公 司 和 和 VMWare 公司 共同 发 布 的 。vSAN 主 要 关注 于 SMB 和 和 SME 市场 ， 比 如 VDI、test/dev 或 者 灾难 恢复 ， 使 用 商用 服务 器 集群 组 成 了 软件 定义 的 存储 阵列 ， 存 
储 和 计算 都 在 同一 个 资源 池 中 被 分 配 。vSAN 的 一 些 关键 特性 参见 图 3-13。 一 个 vSAN 的 集群 开始 由 3~8 个 计算 节点 组 成 ， 每 个 节点 都 配置 了 至 少 一 个 SSD 和 一 个 SAS 硬 盘 ，SSD 用 来 充当 分 布 式 读 写 的 绥 
存 ， 并 不 用 来 持久 化 数据 。 对 vSAN 来 说 ， 它 可 以 提供 以 下 服务 : snaps, linked clones, replication, vSphere HA、DRS、VDP。 具 体 细节 可 以 通过 官方 网 站 了 解 。 


7.DataCore (SANsymphony-V) 


DataCore 公 司 其 实 是 一 个 存储 虚拟 化 公司 ， 它 的 SANsymphony-V 是 一 个 纯 软件 的 存储 虚拟 化 产品 。 对 于 用 户 的 存储 资源 ， 它 可 以 进行 自动 、 实 时 调 优 ， 还 可 以 同步 映射 不 同类 型 的 存储 系统 ， 从 而 使 
这 些 存 储 系 统 可 以 相互 通信 并 进行 数据 迁移 。 有 关内 容 可 以 参考 官方 网 站 。 


8.Coraid (EtherCloud) 


Coraid 公 司 也 有 它 的 软件 定义 存储 平台 EtherCloud。 该 产品 使 得 数据 中 心 架 构 师 和 管理 员 可 以 方便 地 发 布 敏捷 、 简 易 的 存储 基础 架构 ， 同 时 可 以 方便 地 对 存储 部 署 和 管理 进行 维护 。 通 过 非 并 行 的 控制 
层 功能 ，EtherCloud 可 以 提供 完全 的 数据 路 径 上 的 可 视 性 ， 并 且 可 以 通过 软件 控制 整个 存储 环境 。 有 关内 容 可 以 参见 文献 [50]。 
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9.Atlantis Computing (ILIO USX) 
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图 3-13 VMware vSAN 功 能 特性 


Atlantis 公 司 的 ILIO USX 产 品 是 第 一 个 全 内 存 (in-memory) 的 软件 定义 存储 解决 方案 。 它 可 以 管理 已 有 的 SAN、NAS、DAS， 并 且 可 以 跨 数据 中 心 。 它 还 可 以 优化 服务 应 用 和 虚拟 机 对 存储 的 使 用 ， 
将 存储 池 和 有 效 的 优化 进行 组 合 ， 使 得 用 户 可 以 在 同一 存储 上 有 效 部 署 5 倍 以 上 的 虚拟 机 。 有 关 该 产品 的 介绍 可 以 参见 文献 [51]。 


3.4.8 ”分 类 映射 


为 了 方便 读者 理解 ， 我 们 将 上 一 小 节 所 讲 的 软件 定义 存储 的 解决 方案 按照 不 同 的 分 类 方法 进行 了 总 结 ， 具 体 见 表 3-3~ 表 3-5。 从 中 读者 可 以 对 这 些 产 品 的 特性 进行 直观 的 了 解 。 
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表 3-3 ”按照 管理 的 存储 类 型 划分 
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表 3-4 按照 对 外 提供 的 数据 访问 接口 划分 
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表 3-5 按照 服务 对 象 划分 
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3.5 市 场 现状 与 分 析 


目前 许多 用 户 已 经 认识 到 过 去 将 所 有 数据 集中 存放 在 高 性 能 存储 的 做 法 是 不 经 济 也 是 不 必要 的 ， 实 际 上 ， 更 好 的 做 法 是 只 利用 高 端 存储 阵列 存放 少量 的 关键 数据 ， 而 将 大 量 的 低 附 加 值 或 者 没 被 利用 的 
数据 分 散 存 放 在 较 低 端 和 较 便宜 的 人 存储 系统 中 。 为 了 方便 高 效 地 管理 跨 存 储 设备 或 跨 地 理 分 散人 存放 的 数据 ， 用 户 需要 一 个 高 度 自动 化 和 策略 驱动 的 统一 存储 管理 平台 ， 而 软件 定义 存储 的 构架 恰恰 能 很 好 地 
满足 这 一 需求 。 软 件 定义 存储 的 出 现 和 初步 流行 主要 由 以 下 几 个 技术 和 市 场 方面 的 因素 所 驱动 : 


- 正在 改变 的 用 户 需求 。 保 证 用 户 数 据 中 心 管理 大 规模 数据 的 能 力 ; 更 多 的 敏捷 性 ; 7X24 小 时 的 数据 可 用 性 ， 以 及 更 长 计划 服务 时 效 的 更 大 规模 存储 系统 的 部 署 ; 维持 由 多 家 厂商 产品 构成 存储 构架 的 
习惯 做 法 。 在 存储 基础 构架 层面 上 的 优化 能 带 来 的 好 处 可 以 比拟 存储 所 有 权 从 服务 器 转向 SAN 所 带 来 的 好 处 。 


.网络 规模 级 的 上 T。 由 拥有 超大 规模 数据 中 心 的 公司 〈 例 如 Facebook) 实现 的 网 络 规模 级 的 IT 系统 使 得 存储 采购 者 认识 到 ， 不 依赖 硬件 的 文件 系统 无 论 是 现成 的 还 是 定制 化 的 ， 都 可 以 被 用 作 实 现 基 于 
横向 扩展 型 硬件 的 存储 机 制 。 网 络 规模 级 IT 数据 中 心 对 高 度 可 扩展 公有 云 环境 的 成 功 支撑 激发 了 企业 去 寻找 可 以 模拟 高 度 定 制 化 的 超大 规模 数据 中 心 环 境 的 商业 软件 产品 。 尤 其 ， 特 大 型 企业 《比如 全 球 性 
投资 银行 和 电信 运营 商 ) 正在 尝试 一 种 新 的 建造 自 有 存储 (Build-Your-Own-Storage) 的 场景 ， 即 利用 自身 技术 力量 对 存储 软件 进行 创新 和 利用 采购 杠杆 实现 硬件 成 本 控制 。 


- 新 型 文件 系统 的 出 现 。NetApp 公 司 和 Ortacle 公 司 之 间 关 于 ZFS 文 件 系 统 的 专利 官司 于 2010 年 完结 ， 使 得 ZFS 成 为 未 来 存储 构架 中 的 基础 文件 系统 的 可 能 性 大 大 提高 。 当 前 ， 在 存储 产品 中 使 用 开源 ZFS 
文件 系统 的 厂商 包括 Nexenta、CloudByte、Tegile Systems、IceWeb、GreenBytes 和 Cotaid。 除 此 之 外 ， 基 于 其 他 文件 系统 的 存储 产品 ， 例 如 Nutanix (基于 Nutanix 分 布 式 文件 系统 ) ~ Red Hat Storage Server ( 基 


于 开源 GlusterFS 文 件 系 统 ) 和 Inktank (基于 Ceph 文 件 系 统 ) ， 都 宣称 自己 是 针对 特定 存储 应 用 需求 的 新 型 存储 构架 。 


- 基于 外 部 控制 器 (External Controller-Based, ECB) 的 存储 厂商 的 商业 模式 。 自 20 世 纪 90 年 代 初 起 ， 当 第 一 批 商 业 ECB 存 储 阵 列 开 始 被 广泛 部 署 在 开放 式 系 统 市 场 ， 开 放 式 系统 存储 产业 便 已 成 为 
一 个 高 利润 产业 。ECB 存 储 厂 商 在 持续 不 断 地 提供 创新 的 数据 管理 、 压 缩 和 优化 技术 的 同时 ， 也 对 存储 管理 软件 (和 硬件 ) 收取 高 额 的 费用 。 当 存储 采购 者 意识 到 建造 自 有 存储 的 可 能 性 ， 他 们 便 开 始 探索 
如 何在 企业 环境 中 部 署 自 有 存储 构架 并 使 之 与 现 有 存储 构架 并 存 。 


特别 地 ， 三 类 组 织 机 构 在 软件 定义 存储 的 发 展 上 起 到 了 显著 的 推动 作用 : 


` 社交 媒体 和 公有 云 提供 商 。 诸 如 谷歌 、Facebook、 亚 马 过 和 Linkedin 之 类 的 云 和 社交 媒体 公司 通过 自主 开发 和 维护 整套 基于 开源 软件 和 商业 硬件 的 软件 定义 存储 方案 来 降低 自身 的 全 开 销 。 一 些 公司 将 
他 们 的 (部 分 ) 方案 贡献 给 开源 运动 ， 使 得 其 他 公司 也 得 以 从 中 收益 。 值 得 注意 的 是 ， 几 乎 所 有 的 公司 都 还 没有 打算 将 他 们 的 方案 作为 独立 的 产品 出 售 。 


. 基于 开源 社区 的 生态 系统 。 来 自 开源 社区 的 系统 (计算 、 网 络 和 存储 ) 堆栈 ， 例 如 CloudStack、OpenStack 和 Ceph， 开 始 和 商业 系统 堆栈 竞争 。 新 一 代 的 管理 服务 与 云 提供 商 ， 例 如 Racksapce 和 
Salesforce， 很 大 程度 地 利用 这 些 开 源 系统 堆栈 构造 他 们 的 公有 云 服务 ; 一 些 企业 组 织 机 构 也 开始 利用 这 些 开源 系统 堆栈 构造 他 们 的 私有 云 环境 ; 一 些 创 业 公司 开始 尝试 将 这 些 开源 系统 堆栈 打包 成 现成 的 产 
品 卖 给 那些 自身 没有 足够 技术 资源 或 者 资金 进行 完全 自主 开发 的 小 型 服务 提供 商 。 


事实 上 ， 开 源 社区 和 新 一 代 的 社交 媒体 和 公有 云 提 供 商 正在 通过 类 似 于 Open Compute 的 运动 积极 推动 硬件 标准 化 ， 而 这 又 将 会 对 软件 定义 数据 中 心 的 发 展 有 所 帮助 。 


3.5.1 ”技术 影响 


软件 定义 存储 的 趋势 将 在 近期 (三 至 五 年 内 ) 影响 以 下 技术 用 户 和 市 场 的 诸多 方面 : 


` 云 基 础 构架 提供 商 ”一 方面 ， 软 件 定义 存储 技术 有 潜力 直接 帮助 云 管理 平台 实现 (公有 、 私 有 或 者 混合 ) 云 中 存储 资源 的 整合 与 管理 自动 化 ; 另 一 方面 ， 云 基础 构架 提供 商 也 会 意识 到 在 云 中 协调 异 
构 存 储 设备 的 价值 和 重要 性 (特别 是 针对 私有 云 环境 下 自 建 存储 的 用 户 需求 ) ， 从 而 加 大 对 相关 功能 的 实现 投入 。 


: 中 端 存储 市 场 ” 对 于 某 些 特定 的 用 户 应 用 ,例如 虚拟 桌面 基础 设施 (VDI) ， 软 件 定义 存储 可 能 会 在 不 久 的 将 来 取代 更 昂贵 的 基于 外 部 控制 器 (ECB) 存储 。 而 软件 定义 存储 全 面 取代 ECB 存 储 的 时 
机 ， 只 有 在 软件 定义 存储 达到 以 下 要 求 之 后 才 有 可 能 到 来 : 低 成 本 ， 高 性 能 ; 硬件 升级 所 引发 的 软件 平台 升级 与 存储 服务 中 断代 价 足 够 小 ; 对 存储 硬件 的 锁定 依赖 足够 小 。 


- 大 型 企业 ”针对 有 部 署 混合 云 环境 的 大 型 企业 ， 现 有 的 存储 管理 /虚拟 化 产品 会 提供 基于 API 的 公有 云 访问 机 制 。 特 大 型 企业 (比如 全 球 性 投资 银行 和 电信 运营 商 ) 会 对 软件 定义 存储 有 较 高 的 兴趣， 
既是 为 了 降低 庞大 的 IT 开销 ， 也 是 为 了 间接 驱使 现 有 的 ECB 厂 商 改变 他 们 死板 的 产品 授权 策略 。 对 于 IT 服务 提供 商 来 说 ， 利 用 现 有 技术 或 者 定制 专用 工具 来 帮助 这 些 特大 型 企业 实现 真正 的 软件 定义 存储 将 
会 带 来 很 多 商机 。 


3.5.2 ”软件 定义 存储 的 商业 价值 


- 更 短 的 价值 生成 时 间 (Time to Value) 。 软 件 定义 存储 最 大 程度 地 避免 了 重复 耗 时 的 存储 分 配 管 理工 作 ， 使 得 应 用 和 服务 能 更 快 上 线 。 因 此 ， 商 业 组 织 可 以 更 敏捷 地 对 不 断 变化 的 市 场 状 况 做 出 及 时 


. 更 高 回报 的 IT 投入 。IT 技 术 更 新 的 周期 一 般 为 三 至 五 年 。 因 此 ， 存 储 的 采购 往往 需要 考虑 诸多 性 能 指标 上 的 宛 余 以 满足 未 来 可 能 的 新 需求 。 在 这 种 情况 下 ， 存 储 资 源 往往 得 不 到 充分 利用 ， 而 且 资 源 
的 利用 情况 也 往往 不 得 而 知 。 软 件 定义 存储 在 很 大 程度 上 可 以 改善 这 种 现状 。 在 软件 定义 存储 中 ， 所 有 的 存储 资源 都 被 整合 到 一 个 大 的 资源 池 中 ， 并 按 需 分 配给 不 同 的 用 户 和 应 用 ; 同时 ， 集 中 式 的 存储 资 
源 监控 、 报 告 和 管理 也 使 得 用 户 能 更 方便 地 追踪 当前 资源 使 用 情况 ， 更 有 效 地 预测 未 来 存储 资源 的 采购 需求 。 


- 解除 供应 商 锁定 。 软 件 定义 存储 平台 能 够 接 入 来 自 不 同 存储 供应 商 的 〈 同 构 或 异 构 的 ) 物理 存储 设备 ， 并 以 统一 的 经 过 抽象 化 的 虚拟 存储 池 的 方式 呈现 给 用 户 。 用 户 并 不 直接 对 底层 的 物理 存储 设备 
进行 操作 ， 而 是 通过 平台 的 “控制 模块 ” (Control Plane) 进行 数据 访问 和 管理 。 因 此 ， 不 像 过 去 ， 用 户 的 应 用 不 再 需要 绑 定 运行 在 特定 供应 商 的 特定 物理 存储 设备 上 。 


. 更 专注 的 IT 人 员 。 软 件 定义 存储 平台 能 够 自动 化 处 理 许 多 重复 性 的 繁琐 的 存储 分 配 管理 工作 ， 从 而 使 得 IT 人 员 只 需 投 入 较 少 的 精力 去 满足 下 游 用 户 的 存储 资源 需求 ， 而 把 更 多 的 精力 投入 到 存储 采购 
的 计划 以 及 优化 存储 资源 的 使 用 。 


- 更 高 的 效率 。 在 软件 定义 存储 中 ， 大 多 数 存 储 服务 (动态 分 配 、 监 控 、 报 告 和 认证 等 ) 都 被 集成 在 软件 实现 的 “控制 模块 ”。 “控制 模块 ”可 以 帮助 应 用 更 迅速 地 定位 最 合适 的 存储 资源 ， 也 可 以 实 


现存 储 资 源 在 不 同 应 用 之 间 的 动态 按 需 切 换 。 通 过 对 “控制 模块 ”的 完善 和 增加 新 的 智能 ， 平 台 可 以 持续 提高 数据 服务 的 质量 以 及 满足 新 型 应 用 的 需求 。 


3.5.3 ”市场 展 望 


1DC 预 计 基 于 文件 和 对 象 的 存储 市 场 将 于 2016 年 达到 340 亿 美元 的 市 场 规模 ， 其 中 基于 软件 定义 的 横向 扩展 的 存储 系统 将 占据 三 分 之 二 的 市 场 份额 ; 再 加 上 基于 块 的 软件 定义 存储 系统 ， 总 的 软件 定义 
存储 的 市 场 将 会 变 得 更 大 。 


用 户 将 逐渐 把 软件 定义 存储 系统 作为 一 种 经 济 的 数据 存储 媒介 。 相 应 地 ， 未 来 的 数据 中 心 也 将 因为 软件 定义 存储 的 繁荣 而 变 得 很 不 一 样 。 


. 廉价 持久 数据 存储 。 用 户 将 拥有 许多 关于 数据 存储 的 选择 权 ， 从 计算 层 到 磁盘 存储 机 制 ， 从 本 地 开放 对 象 接口 到 基于 云 的 接口 。 一 开始 ， 用 户 会 把 非 商业 或 者 性 能 敏感 的 应 用 迁移 到 软件 定义 存储 平 
台 ; 最 终 ， 则 会 将 所 有 的 应 用 都 迁移 过 来 。 


. 基于 服务 的 基础 构架 。 软 件 定义 存储 平台 将 允许 存储 资源 从 不 同 的 地 点 被 分 配 ， 无 论 是 本 地 还 是 远程 ; 将 会 提供 一 个 无 缝 统一 的 数据 展示 层 ， 无 关于 访问 数据 的 设备 或 地 点 。 
软件 定义 存储 平台 的 成 功 将 离 不 开 以 下 关键 因素 : 

. 开放 性 。 软 件 定义 存储 平台 应 该 支持 开放 标准 和 接口 。 

C 支撑 的 解决 方案 。 从 以 往 商业 经 验 可 以 知道 ， 软 件 定义 存储 平台 的 价值 直接 体现 在 它 所 能 支撑 的 解决 方案 的 数量 和 多 样 性 。 

性能。 软件 定义 存储 平台 必须 在 性 能 上 匹配 甚至 超越 基于 硬件 的 平台 。 只 有 这 样 ， 更 多 的 归档 以 外 的 应 用 场景 才 变 得 有 意义 。 

. 可 扩展 性 。 软 件 定义 存储 平台 应 该 支持 一 定 程度 的 跨 地 理 的 分 布 式 部 署 。 对 于 一 个 软件 定义 存储 平台 来 说 ， 它 对 跨 地 理 部 署 的 支持 越 强 ， 就 越 适用 于 云 的 环境 。 


- 对 应 用 的 感知 。 在 大 数据 时 代 ， 一 个 最 佳 实践 是 尽 可 能 地 使 得 计算 和 应 用 靠近 数据 存放 的 位 置 ， 而 数据 中 心 的 计算 层 与 数据 存储 层 的 融合 也 将 成 为 未 来 的 一 大 趋势 。 因 此 ， 软 件 定义 存储 平台 应 该 加 
强 对 应 用 的 感知 ， 从 而 最 大 化 数据 和 计 莫 的 本 地 化 和 共生 关系 。 


3.6 ”上 典 型 实现 
APR, 我们 将 介绍 两 个 软件 定义 存储 的 典型 实现 : ViPR 和 ScalelO。 这 两 个 产品 基于 完全 不 同 的 基础 设施 ， 面 向 不 同 的 用 户 群 体 ， 却 有 着 相似 的 理念 与 设计 原则 。 


3.6.1 ”基于 传统 外 置 存 储 : ViPR 


EMC ViPR 是 一 款 轻 量 级 纯 软件 的 解决 方案 ， 可 将 现 有 存储 转变 为 一 个 简单 、 可 扩展 的 开放 式 平 台 。ViPR 可 扩展 当前 存储 投资 以 满足 新 的 云 规模 的 工作 负载 ， 并 可 将 数据 和 应 用 程序 从 公共 云 轻松 地 迁 
移 回 IT 的 控制 之 下 (反之 亦 可 ) 。ViPR 使 上 T 部 门 能 够 提供 内 部 部 署 的 完全 自动 化 的 存储 服务 ， 并 且 价 格 与 公共 云 提供 商 相当 甚至 更 低 。 


使 用 ViPR， 控 制 路 径 (管理 存储 的 位 置 ) 与 数据 路 径 (存储 数据 的 位 置 ) 完全 分 离 。 此 方法 使 ViPR 能 够 将 存储 从 物理 阵列 抽象 化 成 单个 存储 池 ， 并 且 此 存储 池 仍 保留 各 个 阵列 的 各 自 特 征 和 价值 。 它 使 
管理 员 能 够 定义 一 个 自动 化 的 基于 策略 的 虚拟 存储 池 ， 通 过 一 个 自助 目录 即时 向 用 户 提供 存储 资源 ， 并 跨 物理 和 虚拟 存储 集中 管理 存储 资源 、 性 能 和 利用 率 ， 包 括 计 量 和 按 存 储 容量 使 用 计 费 (参见 图 3- 
14) 。 
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图 3-14 ViPR 软 件 定义 存储 


ViPR 是 目前 唯一 一 款 软件 定义 的 可 扩展 的 开放 式 存 储 平台 。 所 有 API (包括 “ 南 向 ”和 “北向 ”) 都 有 详细 记录 并 且 都 是 开放 式 的 这 使 得 任何 人 都 可 以 扩展 ViPR 来 支持 任何 存储 平台 ， 包 括 商用 平台 和 
云 推 栈 。 它 还 为 开发 人 员 提 供 了 单个 入 口 点 来 编写 完全 独立 于 底层 存储 平台 的 应 用 程序 和 全 局 数据 服务 ， 因 而 提供 了 动态 的 新 存储 方法 。 任 借 众多 的 开放 式 标准 API，ViPR 提 供 了 无 与 伦比 的 灵活 性 ， 使 用 
户 可 以 灵活 选择 适当 的 平台 、 云 堆栈 和 交付 模式 来 匹配 业务 和 工作 负载 要 求 。 

1. 集 中 化 和 自动 化 存储 


ViPR 控 制 器 自动 集中 执行 存储 管理 、 配 置 和 资源 调配 。 它 与 数据 路 径 完 全 分 离 ， 这 意味 着 底层 阵列 的 所 有 功能 都 得 以 保留 。 和 凭借 ViPR， 可 以 在 虚拟 层 进 行 存储 管理 ， 从 而 使 用 户 能 够 将 存储 分 区 为 虚拟 
存储 阵列 或 池 ， 并 以 服务 的 形式 提供 存储 。ViPR 控 制 器 将 物理 存储 资源 抽象 化 成 单个 虚拟 存储 池 ; 人 存储 池 像 资源 一 样 分 为 多 个 虚拟 存储 阵列 ， 它 们 是 物理 存储 阵列 的 逻辑 呈现 ， 具 有 类 似 的 特征 ， 例 如 人 存储 
类 型 、 大 小 、 性 能 和 位 置 ; 使 用 通过 服务 目录 提供 给 用 户 的 预定 义 存 储 功 能 来 创建 基于 策略 的 虚拟 存储 池 ， 自 动 执 行 资 源 调配 。 

2. 跨 存储 的 单个 管理 视图 


ViPR 按 虚拟 存储 池 和 虚拟 存储 阵列 提供 数据 中 心 存储 拓扑 的 单个 复合 视图 。 现 在 ， 管 理 员 们 不 必 再 拼凑 各 种 报告 和 电子 表格 ， 而 可 以 使 用 ViPR 跨 整个 基础 架构 集中 管理 存储 资源 、 性 能 和 利用 率 ， 包 括 
计量 和 按 存储 容量 使 用 计 费 。 为 了 实现 跨 软件 定义 的 数据 中 心 的 端 到 端 完全 可 见 性 和 控制 ，ViPR 与 以 下 产品 无 颖 集成 : 


1) EMC Storage Resource Management Suite 为 虚拟 和 物理 存储 资源 提供 存储 资源 规划 ， 以 提高 存储 利用 率 。 

2) EMC Storage Service Assurance Suite 使 运营 团队 能 够 获得 跨 计算 、 网 络 和 存储 资源 的 单个 视图 ， 并 具备 事件 关联 和 根本 原因 分 析 ， 以 提高 可 用 性 并 降低 死机 时 间 。 
3) ViPR VASA 提 供 程序 使 vCenter 管 理 员 在 调配 虚拟 机 (VM) 时 能 够 在 vCenter 中 选择 与 应 用 程序 兼容 的 存储 并 接收 来 自 ViPR 的 事件 。 

4) vCenter Operations 向 vCenter 添 加 ViPR 支 持 的 存储 指标 和 警报 。 

5) vCenter Orchestrator 为 计算 工作 流 添 加 存储 资源 调配 。 


或 者 ， 拥 有 现 有 人 存储 管理 、 工 作 流 编排 和 更 改 管理 系统 的 组 织 可 以 通过 一 系列 有 详细 记录 的 开放 式 API 轻 松 将 ViPR 集 中 至 其 现 有 环境 中 。 


3.ViPR 体 系 结构 


ViPR 使 多 供应 商人 存储 环境 看 起 来 就 像 一 个 大 的 虚拟 阵列 ， 它 使 用 连接 到 底层 阵列 的 软件 适配器 ， 类 似 于 设备 驱动 程序 使 通用 设备 与 PC 兼容 所 采用 的 方式 。ViPR 提 供 了 开放 式 API， 因 此 ， 任 何 供应 商 、 
合作 伙伴 或 客户 都 可 以 构建 新 的 适配器 以 添加 新 阵列 ， 这 创建 了 可 扩展 的 “ 即 插 即 用 ”存储 环境 ， 从 而 可 以 自动 连接 、 发 现 和 了 映射 阵列 、 主 机 和 SAN 结 构 ( 见 图 3-15) 。 
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图 3-15 ”ViPR 体 系 结构 


存储 管理 员 添 加 阵列 后 ，ViPR 会 发 现 阵列 及 其 所 有 相应 的 存储 池 和 端口 ; 添加 光纤 通道 交换 机 后 ，ViPR 会 自动 发 现 和 映射 光纤 通道 网 络 。 而 且 ，ViPR 可 以 针对 EMC 和 非 EMC 阵 列 (包括 EMC VMAX, 
EMC VNX, EMC Isilon, EMC VPLEX, EMC Atmos 和 NetApp) 完成 此 虚拟 化 和 映射 。 除 发 布 API 外 ，ViPR 还 将 支持 其 他 EMC 和 商品 磁盘 。 


ViPR 隐 藏 了 所 有 底层 存储 阵列 的 复杂 性 ， 并 展示 了 其 作为 数据 服务 的 核心 功能 ， 同 时 还 保留 了 阵列 的 特有 属性 。 人 存储 管理 员 然 后 可 以 在 ViPR 中 创建 代表 特有 应 用 程序 工作 负载 所 需 的 功能 集 的 虚拟 存储 
池 。 例 如 ， 具 有 高 性 能 块 存储 特征 的 虚拟 存储 池 (EMC VMAX) 最 适合 事务 性 工作 负载 。 诸 如 在 线 文 件 和 内 容 共享 等 云 应 用 程序 对 性 能 不 敏感 ， 在 能 够 更 经 济 地 提供 必要 的 数据 保护 和 可 用 性 级 别 的 普通 廉 
价 硬盘 上 就 能 运行 得 很 好 。 对 于 上 述 任意 一 种 情况 ， 用 户 都 可 以 根据 其 工作 负载 需求 订购 虚拟 存储 池 ， 而 不 需要 了 解 将 为 其 应 用 程序 提供 数据 服务 的 底层 硬件 和 软件 。 


ViPR 不 是 在 特定 阵列 中 调配 空间 ， 而 是 让 存储 管理 员 能 够 提供 独特 的 、 可 自 定义 的 硬件 和 软件 资源 组 合作 为 可 使 用 的 数据 服务 。 


ViPR 的 可 扩展 性 使 它 在 某 种 程度 上 不 同 于 存储 虚拟 化 和 其 他 软件 定义 存储 的 解决 方案 ,管理 员 和 开发 人 员 可 以 开发 可 跨 阵列 并 支持 混合 数据 类 型 的 新 全 球 数据 服务 。 全 局 数据 服务 属于 存储 抽象 化 ， 反 
映 数据 类 型 (文件 、 对 象 、 数 据 块 或 渴 合 数据 类 型 ) 、 访 问 协议 (iSCSI、NFS、REST 等 ) 以 及 持久 性 、 可 用 性 和 安全 性 特征 (快照 、 复 制 等 ) 的 组 合 。 数 据 服 务 的 示例 包括 : 


1) 文件 中 对 象 数据 服务 : ViPR 文 件 中 对 象 数据 服务 提供 了 将 非 结 构 化 数据 (例如 图 像 、 视 频 、 音 频 、 联 机 文档 ) 作为 基于 文件 中 对 象 的 存储 (例如 EMC VNX、lsilon 和 NetApp 存 储 系统 ) 进行 存储 、 
访问 和 操作 ， 而 不 必 重 写 或 重新 处 理 现 有 基于 文件 的 应 用 程序 。ViPR 文 件 中 对 象 数据 服务 是 在 不 同 硬件 平台 上 透明 运行 的 软件 层 。 最 初 ，ViPR 文 件 中 对 象 数据 服务 为 用 户 提供 了 使 用 Amazon S3, 
OpenStack Swift 和 EMC Atmos API 管 理 对 象 数据 以 及 访问 文件 系统 上 数据 的 功能 。ViPR 文 件 中 对 象 数据 服务 提供 对 文件 阵列 的 直接 路 径 访问 。 特 别 是 ， 由 于 企业 写 入 到 文件 系统 的 现 有 应 用 程序 不 必 重 新 
编码 即 可 利用 ViPR， 因 此 他 们 可 以 从 此 功能 受益 。 


2) HDFS 数 据 服务 : Hadoop 分 布 式 文件 系统 (HDFS) 支持 对 使 用 对 象 和 文件 数据 服务 的 数据 密集 型 应 用 程序 应 用 位 置 感知 ， 处 理工 作 在 数据 所 在 的 执行 器 节点 上 执行 ， 而 不 必 骨 遍历 网 络 ， 从 而 减少 
了 主干 的 流量 。 


提供 全 球 业务 连续 性 和 移动 数据 服务 ， 而 所 有 这 一 切 都 通过 一 个 管理 控制 点 进行 管理 。 


通过 在 软件 中 虚拟 化 和 定义 的 存储 资源 ， 存 储 管理 员 不 再 受制 于 物理 存储 约束 ， 可 以 为 用 户 提 供 异 构 存储 环境 ， 并 将 应 用 程序 作为 用 户 可 以 订购 的 服务 集 提供 。ViPR 的 开放 式 可 扩展 平台 作为 开发 创新 
型 数据 服务 的 基础 ， 让 企业 和 服务 提供 商 有 能 力 吸引 开发 人 员 和 为 1SV 生 态 系统 添加 新 的 增值 数据 服务 。 


5. 可 扩展 性 


ViPR 开 放 式 体系 结构 提供 了 一 个 通用 的 平台 ， 可 与 任何 EM(C 人 存储 或 第 三 方 存 储 以 及 应 用 程序 和 云 堆栈 集成 。ViPR 提 供 简单 而 强大 的 表述 性 状态 转移 (REST) AP1， 以 便 连 接 多 供应 商 存储 和 构建 其 他 的 
存储 适配器 以 连接 、 发 现 和 映射 阵列 ， 包 括 商 用 存储 、 主 机 和 SAN 结 构 。ViPR 的 可 扩展 性 让 组 织 能 够 创建 新 的 适配器 以 支持 其 他 阵列 ， 并 创建 在 ViPR 上 运行 的 新 全 球 数 据 服务 。 任 何 客户 、 合 作 伙伴 或 服务 
提供 商都 可 以 支持 更 多 阵列 或 者 开发 新 的 数据 服务 。 


使 用 ViPR， 存 储 层 现在 可 以 成 为 9DDC 中 的 另 一 个 可 编程 虚拟 资源 。ViPR 托 管 的 所 有 数据 和 资源 都 可 以 通过 开放 式 API 进 行 访问 ， 该 开放 式 API 还 可 与 VMware、Microsoft 和 Openstack 云 环境 集成 在 
一 起 。 组 织 可 以 轻松 地 将 ViPR 集 成 到 现 有 的 数据 中 心 操作 中 。ViPR 提 供 特定 的 VMware 集成 ， 通 过 接口 可 以 集成 到 VMware vStorage API for Storage Awareness (VASA) , vCenter Orchestrator 和 
vCenter Operations 中 。 例 如 ，vCenter 管 理 员 可 以 获得 从 虚拟 机 到 物理 存储 的 端 到 端 可 见 性 。 


6. 开 放 性 


ViPR 支 持 众 多 的 行业 标准 API， 包 括 数据 块 和 文件 协议 ， 例 如 CIFS、NFS 和 iSCSI; 以 及 对 象 AP1， 包 括 Amazon Simple Storage Service (S3) , EMC Atmos 和 OpenStack Swift. {Ext 
API，ViPR 为 开 友 人 员 提 供 了 单个 入 口 点 编写 应 用 程序 和 全 局 数据 服务 ， 而 完全 不 必 考 虑 存储 依赖 性 。 开 发 人 员 可 以 将 应 用 程序 写 入 多 个 云 AP1， 并 在 企业 数据 中 心 或 服务 提供 商 的 云 中 的 ViPR 上 执行 这 些 工 
作 负 载 。ViPR 的 文件 中 对 象 数据 服务 使 得 还 能 将 对 象 存储 在 现 有 文件 系统 中 ， 并 实现 从 传统 应 用 程序 访问 这 些 对 象 ， 而 不 必修 改 应 用 程序 或 者 进行 重新 编码 。 


3.6.2 ”基于 服务 器 内 置 人 存储 : ScalelO 


scalelO 是 由 一 家 始 于 2011 年 的 以 色 列 创业 公司 开发 的 面向 软件 定义 存储 (SDS) 和 聚合 基础 设施 (Converged Infrastructure, Cl) 的 新 型 存储 产品 ， 并 于 2013 年 6 月 被 EMC 收 购 。 这 是 一 个 基于 运 
行 在 商业 化 服务 器 上 的 纯 软件 实现 ， 软 件 定义 分 布 式 共享 存储 系统 。ScalelO 将 服务 器 里 空 闪 的 内 置 磁盘 (或 外 接 的 直 连 存储 ， 即 DAs) 利用 起 来 ， 组 成 一 个 统一 的 虚拟 存储 池 ， 并 提供 给 所 有 的 服务 器 使 
用 。 这 款 产品 旨 在 充分 利用 廉价 的 闲置 硬件 ， 为 用 户 提供 接近 于 传统 SAN ( 块 存储 ) 的 体验 (参见 图 3-16) 。 
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图 3-16 ”ScaleIO 的 目标 : 替代 SAN 


有 一 些 用 户 尽管 采购 了 昂贵 的 SAN 存 储 阵列 ， 但 使 用 率 却 并 不 高 ， 有 时 候 甚 至 没有 足够 的 供电 、 冷 却 设施 或 网 络 端口 。 与 此 同时 在 数据 中 心里 的 服务 器 上 有 着 成 百 上 干 的 内 置 磁盘 ， 虽 然 有 着 不 小 的 存 
储 容量 ( 几 百 GB 直至 TB 级 别 ) ， 却 只 用 了 几 十 GB 来 存储 操作 系统 和 应 用 程序 。 大 量 的 闲置 能 力 被 浪费 的 同时 ， 却 仍然 持续 消耗 着 电力 、 冷 却 和 空间 资源 。ScalelO 最 初 的 动机 就 是 解决 这 个 问题 ， 基 于 聚合 
后 者 (服务 器 磁盘 ) ， 提 供 堪 比 前 者 (SAN) 的 能 力 ， 而 且 不 需要 引入 太 多 额外 的 成 本 与 复杂 性 。 


scalelO 将 应 用 所 需 的 存储 资源 与 计算 资源 整合 到 一 起 ， 即 在 同一 个 服务 器 集群 中 ， 然 后 提供 给 集群 中 所 有 的 应 用 程序 分 配 使 用 。 数 据 中 心 每 一 个 服务 器 既是 存储 集群 的 模块 ， 也 是 计算 机 群 的 组 成 部 
分 。 通 过 这 种 方式 ，scalelO 可 以 整合 所 有 服务 器 上 的 人 存储 容量 和 性 能 ， 以 及 提供 简化 的 统一 管理 ， 在 提高 运 维 效率 的 同时 降低 成 本 。 这 种 架构 设计 具有 良好 的 可 扩展 性 ， 通 过 简单 地 增加 节点 (服务 器 ) 就 
可 以 很 方便 地 构建 几 干 个 节点 的 集群 。 所 有 的 维护 操作 都 可 以 在 线 进行 ， 不 会 影响 到 运行 中 的 应 用 程序 。 此 外 ScalelO 还 具备 数据 自我 修复 (Self-Healing) 的 能 力 ， 可 以 轻松 应 对 服务 器 故障 或 磁盘 故障 。 
最 后 ScalelO 通 过 完全 分 布 式 的 设计 以 及 数据 访问 的 高 度 并 发 性 保证 了 良好 的 性 能 。 


ScalelO 的 典型 用 例 包括 : 名 虚拟 服务 器 (Virtual Server Infrastructure, VSI) ， 需 要 大 容量 、 易 管理 、 易 扩展 、 低 成 本 的 存储 ; @ 虚 拟 桌 面 (Virtual Desktop Infrastructure, VDI) ， 需 要 高 性 能 


(峰值 ) 、 大 容量 、 易 扩展 的 人 存储; @ 数 据 库 ， 需 要 支持 高 性 能 写 操 作 、 保 证 高 可 用 性 、 快 速 恢复 的 存储 ; @ 开 发 测试 环境 ， 需 要 适应 硬件 快速 变化 、 具 有 适中 的 容量 与 性 能 、 低 成 本 的 存储 。 


1) 高 度 可 扩展 性 : 最 多 可 支持 数 干 个 节点 (服务 器 ) ; 得 益 于 高 度 的 |/O 并 发 性 ， 系 统 的 存储 吞吐 量 (带宽 /IOPs) 可 以 随 着 节点 数 线性 增长 。 当 新 的 存储 或 计算 资源 (如 额外 的 服务 器 或 磁盘 ) 加 入 
集群 后 ，ScalelO 会 自动 启动 负载 均衡 机 制 ， 将 一 部 分 现 有 的 存储 数据 搬运 到 新 的 节点 上 (如 图 3-17 所 示 ) 。 此 外 ScalelO 的 各 个 组 件 作 为 服务 器 上 运行 的 应 用 程序 ， 在 设计 之 初 就 充分 考虑 到 计算 资源 占用 
的 最 小 化 ， 这 也 是 可 扩展 性 的 男 一 重要 保障 。 最 后 组 件 之 间 也 是 全 分 布 式 的 架构 设计 ， 不 会 有 任何 一 个 节点 成 为 存储 (网络) 流量 的 瓶颈 。 


2) 良好 的 伸缩 性 : 新 节点 的 加 入 、 现 有 节点 的 删除 和 移动 都 可 以 在 线 动态 进行 ， 不 需要 任何 复杂 的 重新 配置 或 调整 过 程 。 数 据 中 心 采购 硬件 的 时 候 ， 不 再 需要 做 复杂 的 容量 计划 (Capacity 
Planning) ， 可 以 根据 应 用 程序 需求 随时 进行 微调 。 而 且 系 统 会 根据 新 的 节点 数 自动 发 起 数据 迁移 ， 从 而 达到 自动 负载 均衡 的 目的 (如 图 3-18 所 示 ) . 


对 于 各 种 类 型 的 基础 设施 ，scalelO 都 有 着 很 好 的 兼容 性 。 首 先 ，scalelO 可 以 管理 各 种 不 同类 型 的 存储 ， 包 括 机 械 磁 盘 (HDD) 、 固 态 磁盘 (SSD) 和 PCle 接 口 的 内 存 (Flash) 卡 等 ， 通 过 将 其 纳入 
不 同 的 存储 池 ， 可 以 为 用 户 提供 多 种 服务 级 别 (性 能 /价格 ) 的 存储 。 其 次 ，ScalelO 可 以 运行 在 多 种 架构 的 服务 器 上 ， 包 括 x86 架 构 、ARM 架 构 以 及 其 他 一 些 心 片 组 。 最 后 ，ScalelO 对 操作 系统 也 有 着 广泛 
的 支持 ， 涵 盖 所 有 主流 的 Linux 与 各 种 虚拟 化 平台 (VMware/XEN/KVM) ， 对 Windows 也 即将 提供 支持 。 
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图 3-17 ScaleIO 可 扩展 性 : 新 节点 加 入 
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图 3-18 ScaleIO 自动 负载 均衡 与 数据 重建 
除了 前 面 提 到 的 多 存储 池 与 平台 兼容 性 ，ScalelO 还 具有 以 下 功能 与 特性 : 
- 数据 保护 “为 每 份 数据 创建 两 个 副本 并 随机 选择 存储 节点 。 当 某 个 节点 失效 时 ， 系 统 提供 快速 的 故障 检测 与 自动 重建 机 制 ， 实 现 高 可 用 性 保障 。 


: 存储 快照 ”运行 对 用 户 卷 进行 快照 保护 ， 并 支持 可 写 (Writeable) 模式 的 快照 。 


多 租户 模式 ”支持 服务 质量 (QoS) 控制 ， 提 供 针 对 某 个 特定 用 户 卷 的 带宽 (Bandwidth) 与 IOPS 的 限 速 机 制 。 同 时 还 支持 不 同 保护 域 (Protection Domain) 的 划分 


. 管理 便捷 ”友好 的 图 形 化 管理 界面 ， 可 以 让 管理 员 方 便 地 配置 与 监控 整个 存储 集群 。 


2. 架 构 与 组 件 


scalelO 将 每 一 个 用 户 存储 卷 (或 LUN) 按照 固定 的 大 小 分 块 (Chunk) ， 然 后 将 其 分 散 到 集群 中 的 一 些 节点 上 ; 数据 分 发 的 决策 充分 考虑 到 整个 存储 系统 的 负载 均衡 。 这 样 的 设计 首先 大 大 减少 了 访 
问 热点 (Hot Spot) 出 现 的 可 能 性 ， 是 系统 性 能 随 着 节点 数 线性 增长 的 重要 保障 。 从 另 一 个 角度 来 说 ， 单 个 应 用 程序 访问 单个 存储 卷 的 性 能 也 能 大 大 提高 ， 得 益 于 对 多 个 存储 节点 访问 的 全 并 发 访问 。 同 时 
存储 节点 的 选择 也 会 考虑 到 邻近 原则 (类 似 与 Hadoop 的 分 配 策略 ) ， 这 也 是 聚合 基础 设施 带 来 的 另 一 个 好 处 。 


scalelO 本 身 也 作为 普通 的 应 用 程序 运行 在 各 个 服务 器 上 ， 其 系统 架构 如 图 3-19 所 示 。 在 ScalelO 的 架构 设计 中 ， 有 三 个 主要 的 组 件 : @ 数 据 客户 端 (Data Client, DC) ， 作 为 存储 设备 驱动 部 署 在 应 


用 程序 需要 消费 存储 的 节点 上 ; @ 数 据 服务 端 (Data Server, DS) ， 作 为 系统 服务 (Service/Daemon) 部 署 在 提供 闲置 存储 能 力 的 服务 器 上 ; 元 数据 管理 器 (Metadata Manager, MDM) ， 也 作为 
系统 服务 选择 性 地 部 署 在 一 部 分 节点 上 。 


图 3-19 ScalelO 3844 -5 2a t+ 


第 一 个 组 件 是 ScalelO 数 据 客户 端 (SDC) ， 作 为 块 存储 设备 的 驱动 程序 存在 于 需要 访问 存储 的 服务 器 上 。SDC 展 现 给 应 用 程序 的 块 存储 设备 实际 上 可 能 发 布 在 整个 ScalelO 集 群 的 任何 存储 节点 上 ， 然 
而 对 于 本 地 应 用 程序 来 说 ， 有 着 访问 本 地 磁盘 一 样 的 用 户 体验 。 在 后 端 ，SDC 负 责 与 其 他 节点 (SDS) 进行 通信 ;ScalelO 通 信 协 议 的 实现 基于 TCP/IP 协 议 。 应 用 程序 发 起 的 存储 读 写 操作 会 通过 文件 系统 
和 卷 管理 器 (如 LVM) ， 然 后 传递 给 SDC (如 图 3-20 所 示 ) 。SDC 从 已 保存 的 元 数据 中 查询 必要 的 访问 信息 ， 然 后 将 操作 分 发 到 对 应 的 目标 节点 ( 即 SDS 所 在 的 节点 ) 。 
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图 3-20 ScaleIO 数 据 客户 端 (SDC) 


下 一 个 组 件 是 ScalelO 数 据 服务 器 端 (SDS) ， 作 为 系统 服务 运行 于 所 有 贡献 存储 的 服务 器 上 。SDS 负 责 管理 本 地 的 存储 设备 (HDD、SSD、PCle 闪 存 卡 ) ， 并 将 其 加 入 到 ScalelO 的 各 个 存储 池 中 ; 本 
地 的 存储 形式 可 以 是 磁盘 、 分 区 或 文件 。 接 收 到 (通过 ScalelO 通 信 协 议 ) 来 自 SDC 的 存储 请 求 后 ，SDS 负 责 在 本 地 执行 实际 的 I/O 操 作 ， 即 通过 普通 的 块 存储 设备 驱动 本 地 存储 进行 操作 (如 图 3-21 所 
示 ) 。 一 台 服 务 器 上 可 以 同时 部 署 SDC 和 SDS， 两 者 都 运行 在 存储 访问 的 数据 链 路 (Data Path) 上 ， 其 运行 完全 互相 独立 。 


块 设备 驱动 


图 3-21 Scale IO 数据 服务 器 端 (SDS) 


控制 链 路 (Control Path) 上 的 组 件 就 是 ScalelO 的 元 数据 管理 器 (MDM) ， 作 为 负责 整个 系统 的 监控 与 配置 的 关键 角色 。 稍 有 不 同 的 是 部 署 方式 ，MDM 只 需 运 行 在 少数 几 个 服务 器 上 ， 也 是 作为 系 
统 服 务 的 形式 存在 (类似 于 SDS) ; 当然 MDM 的 数量 也 会 随 着 集群 规模 增长 。MDM 维 护 了 整个 存储 集群 中 所 有 用 户 卷 (Volume) 与 SDS 之 间 的 映射 关系 ， 还 负责 所 有 与 数据 移动 (迁移 ) 相关 的 决策 ， 
包括 自动 负载 均衡 、 节 点 故障 后 数据 自动 修复 等 。 此 外 MDM 还 负责 其 他 一 些 系统 功能 ， 例 如 给 ScalelO 的 管理 界面 提供 监控 数据 。MDM 与 SDS/SDC 之 间 的 交互 是 超 轻 量 级 (Extremely Light) 和 延迟 执 
íF (Lazy) 的 ， 所 有 的 用 户 数据 都 不 会 流 经 MDM ， 因 此 不 可 能 成 为 性 能 瓶颈 或 可 扩展 性 瓶 纪 。M DM 集 群 采 用 了 高 可 用 性 的 设计 ， 保 证 不 会 出 现 单 点 故障 (详情 参见 8.5 节 ) 。MDM 可 以 与 SDS/SDC 部 署 
在 同一 服务 器 上 ， 也 可 以 单独 运行 ，MDM 对 计算 和 网 络 资源 的 需求 都 不 高 ， 也 不 会 抢占 (Preempt) 应 用 程序 和 SDS/SDC 的 资源 。 


第 4 草 ”软件 定义 网 络 


数据 中 心 作 为 企业 上 资源 的 集中 地 ， 是 数据 计算 、 网 络 传输 、 存 储 的 中 心 ， 为 企业 和 用 户 的 业务 提供 IT 支持 。 网 络 作为 提供 数据 交换 的 模块 ， 是 数据 中 心中 最 为 核心 的 基础 设施 之 一 ， 并 直接 关系 到 数 
据 中 心 的 性 能 、 规 模 、 可 扩展 性 和 管理 性 。 随 着 云 计算 、 物 联网 、 大 数据 等 众多 新 技术 和 应 用 的 空前 发 展 以 及 智能 终端 的 爆炸 式 增长 ， 以 交换 机 为 代表 以 传统 网 络 设备 为 核心 的 数据 中 心 网 络 已 经 很 难 适 应 
企业 和 用 户 对 业务 和 网 络 的 快速 部 署 、 灵 活 管理 和 控制 ， 以 及 开放 协作 的 需求 ， 网 络 必须 能 够 像 用 户 应 用 程序 一 样 可 以 被 定制 和 编程 ， 也 就 是 软件 定义 网 络 (Software-Defined Networking, SDN) 。 


4.1 概述 


SDN 毫 无 疑问 是 近 几 年 IT 领域 的 大 热 词 。 在 各 种 场合 下 出 镜 率 极 高 ， 网 络 、 杂 志 对 SDN 的 介绍 随处 可 见 。 那 SDN 到 底 是 什么 ， 能 做 什么 ”业界 众说 纷 经 ， 莫 囊 一 是 。 有 人 说 SDN 是 网 络 界 类 似 于 Linux 
的 运动 ， 是 接替 UNIX 与 Windows 的 第 三 代 代 表 ; 有 人 说 SDN 像 是 网 络 领域 如 之 前 服务 器 与 存储 领域 中 所 经 历 的 虚拟 化 浪潮 ; 也 有 人 说 SDN 不 过 是 一 个 炒作 的 概念 ， 离 实际 的 应 用 还 相差 甚 远 .…… 这 些 观 点 
反映 出 不 同 立场 的 各 方 对 SDN 的 不 同 理解 ， 原 因 是 SDN 的 出 现 对 IT 产 业 乃 至 科技 界 的 各 方面 产生 了 巨大 影响 ， 甚 至 会 在 一 定 程度 上 重新 划分 当今 的 |T 生 态 利益 格局 。 对 网 络 有 用户， 特别 是 互联 网 厂商 和 电信 
运营 商 而 言 ，SDN 意 味 着 网 络 的 优化 和 高 效 的 管理 ， 可 以 利用 SDN 提 高 网 络 的 智能 性 和 管控 能 力 ， 大 幅 降低 网 络 建设 与 运 维 成 本 ， 还 可 以 促进 运营 商 真 正 开 放 底 层 网 络 ， 大 大 推动 互联 网 业务 应 用 的 优化 和 
创新 。 对 一 些 初 创 厂 商 而 言 ，SDN 是 获得 快速 发 展 的 机 遇 。 首 先 SDN 是 新 兴 技 术 ， 本 身 就 是 一 个 巨大 的 “ 金 矿 ”， 孕 育 着 巨大 的 市 场 机 会 ， 对 SDN 的 投入 能 够 获得 巨大 的 收益 ， 根 据 来 自 |DC 与 Infonetics 
的 数据 显示 ，SDN 市 场 规模 在 未 来 两 三 年 内 将 超过 30 亿 美元 。1D(C 表 示 到 2016 年 SDN 市 场 规模 将 达到 37 亿 美元 ， 而 Infonetics 则 相对 保守 ， 预 测 在 2017 年 将 实现 31 亿 美元 的 市 场 贡 献 。 然 后 SDN 让 传统 厂 
商 和 自己 重新 站 在 同一 条 起 跑 线 上 ， 初 创 厂 商 不 受 既 有 产品 和 利益 的 约束 ， 轻 装 上 阵 ， 有 实现 弯 道 超车 的 机 会 ; 而 对 传统 厂商 而 言 ，SDN 则 是 机 遇 和 挑战 并 存 。 一 方面 ，SDN 的 兴起 为 产业 注入 了 新 的 活 
力 ， 带 来 了 新 的 需求 和 增长 点 ， 可 以 抓 住 SDN 的 机 遇 扩 大 市 场 ， 增 加 收入 和 利润 ; 另 一 方面 ，SDN 意 味 着 目前 网 络 设备 软 硬 件 一 体 的 架构 将 被 打破 ， 软 硬件 解 厢 ， 网 络 设 备 只 负责 数据 的 转 友 ， 这 样 会 让 网 
络 设备 鳄 发 标准 化 、 低 廉 化 ， 网 络 功 能 将 逐渐 由 软件 实现 ， 设 备 利润 转移 到 软件 领域 ， 自 己 的 传统 地 盘 和 利益 将 会 受到 威胁 。 在 这 种 背景 下 ， 传 统 厂 商 对 SDN 的 态度 各 不 相同 ， 有 的 处 于 观望 甚至 是 抵制 的 
态度 ， 有 的 则 积极 探索 3SDN 相 关 技术 和 产品 ， 利 用 自己 的 江湖 地 位 制定 标准 ， 掌 握 话 语 权 ， 并 准备 在 合适 的 时 候 收 购 一 些 初创 厂商 ， 继 续 维护 自己 的 领地 。 


正 因为 SDN 搅 动 了 当前 各 方 利益 的 格局 ， 使 得 当今 SDN 产 业 处 于 混战 状态 ， 各 个 厂商 、 各 个 组 织 你 方 唱 罢 我 登场 ， 新 老 势 力 为 了 能 够 在 未 来 的 竞争 中 立 于 不 败 之 地 ， 都 积极 参与 到 3DN 的 讨论 、 研 发 乃 
至 标准 的 制定 中 ， 新 标准 、 新 架构 、 新 产品 不 断 出 现 ， 使 SDN 产 业 呈 现 出 茵 勃发 展 的 态势 。 


如 上 所 述 ，SDN 是 一 种 新 兴 的 技术 ， 也 是 一 种 新 兴 的 产业 ， 那 SDN 的 准确 定义 是 什么 ? SDN 发 展 的 驱动 力 是 什么 ” SDN 和 传统 网 络 架构 有 什么 不 同 ” 为 了 让 读者 对 SDN 有 全 方面 的 认识 ， 我 们 会 首先 介 
绍 什么 是 SDN， 然 后 介绍 SDN 的 框架 和 特点 ， 最 后 介绍 与 SDN 相 关 的 组 织 和 各 大 厂商 对 SDN 的 支持 及 其 观点 。 


4.1.1 什么 是 SDN 


SDN 是 一 种 全 新 的 网 络 技术 ， 它 通过 分 离 网 络 设备 的 控制 平面 与 数据 平面 ， 将 网 络 的 能 力 抽象 为 应 用 程序 接口 (Application Programming Interface, API) 提供 给 应 用 层 ， 从 而 构建 了 开放 可 编程 的 
网 络 环境 ， 在 对 底层 各 种 网 络 资源 虚拟 化 的 基础 上 ， 实 现 对 网 络 的 集中 控制 和 管理 。 与 采用 嵌入 式 控制 系统 的 传统 网 络 设备 相 比 ，SDN 将 网 络 设备 控制 能 力 集中 至 中 央 控 制 节点 ， 通 过 网 络 操作 系统 以 软件 
驱动 的 方式 实现 灵活 、 高 度 自动 化 的 网 络 控制 和 业务 配置 。 


1.SDN 发 展 的 背景 和 驱动 力 


当前 上 T 领 域 正 经 历 着 巨大 的 变化 ， 云 计算 、 虚 拟 化 、 大 数据 、 物 联网 、 移 动 豆 联网 、 社 交 网 络 等 新 技术 、 新 模式 、 新 应 用 的 爆发 式 增长 改变 着 我 们 每 个 人 的 生活 ， 根 据 IDC 的 报告 ，2011 年 有 80% 的 企 


业 应 用 是 在 云 平台 上 开发 的 ， 到 2014 年 ， 将 有 30% 的 企业 应 用 费用 花 在 云 计算 供 应 的 业务 上 ; 另 一 方面 ，IDC 称 2013 年 全 球 移动 互联 用 户 达 到 了 13.6 亿 ， 并 且 将 以 13.7% 的 年 增长 率 增长 ， 到 2017 年 ， 全 球 
移动 互联 用 户 将 高 达 22.7 亿 。 伴 随 着 移动 互联 的 爆发 式 增长 的 同时 是 数据 量 的 急速 增长 ， 根 据 IDC 数 字 世 界 研究 项 目的 统计 ，2010 年 全 球 数字 世界 的 规模 首次 达到 了 ZB (1ZB=1 万 亿 GB) 级 别 ， 即 
1.227ZB; 而 2005 年 这 个 数字 只 有 130EB， 基 本 上 5 年 增长 了 10 倍 。 这 种 增长 意味 着 到 2020 年 我 们 的 数字 世界 规模 将 达到 40ZB， 即 15 年 增长 300 倍 。 可 以 说 ， 云 计算 、 大 数据 和 移动 互联 时 代 已 经 来 临 。 


随 着 云 计 算 兴 起 ， 利 用 虚拟 化 和 面向 服务 技术 ， 能 够 为 智能 轻便 设备 提供 广泛 的 业务 服务 。 在 这 种 计算 模式 下 ， 计 算 和 存储 能 力 向 网 络 中 心 迁 移 ， 形 成 数据 中 心 ， 大 量 的 计算 请 求 、 信 息 请 求 依托 网 络 
向 数据 中 心 友 送 ， 网 络 成 为 数据 中 心 和 用 户 的 纽带 。 


在 这 种 计算 、 网 络 、 存 储 资源 的 整合 下 ， 云 计算 对 网 络 的 要 求 由 连接 转变 为 服务 ， 原 因 是 云 计算 本 身 就 是 一 种 服务 ， 能 按 需 、 弹 性 、 共 享 、 灵 活 地 为 用 户 提 供 云 业 务 和 基础 资源 ， 其 中 基础 资源 包含 计 
算 、 存 储 和 网 络 等 。 网 络 作为 一 种 资源 被 云 计算 整合 到 基础 架构 中 ， 提 供 快速 连接 的 服务 ， 这 需要 网 络 能 够 以 服务 方式 交付 ， 可 以 灵活 定制 ， 可 以 按照 用 户 的 需求 和 业务 的 变化 动态 调整 ， 而且， 云 计 算是 
以 服务 的 方式 呈现 给 用 户 ， 用 户 要 能 够 以 一 个 集中 、 统 一 的 管理 平台 对 云 资 源 进行 配置 和 管理 ， 这 同样 包括 网 络 资源 。 


但 是 ,传统 网 络 在 面 对 这 种 需求 的 时 候 遇 到 了 瓶 贷 。 这 是 因为 当前 网 络 中 存在 着 各 种 各 样 互 不 相干 的 协议 ， 它 们 被 用 来 在 不 同 间隔 距离 、 不 同 链接 速度 、 不 同 拓扑 架构 的 网 络 主机 之 间 建 立 网 络 连 接 。 
因为 历史 原因 ， 这 些 协议 的 研发 和 应 用 通常 是 彼此 隔离 的 ， 每 个 协议 通常 只 是 为 了 解决 某 个 专门 的 问题 而 缺少 对 共性 问题 的 抽象 ， 这 就 导致 了 当前 网 络 的 复杂 性 。 而 且 传 统 网 络 中 ， 网 络 的 状态 分 布 在 大 量 
的 网 络 设备 上 ， 是 一 个 无 中 心 的 结构 。 要 完成 一 个 网 络 功能 ， 则 需要 连接 每 一 个 相关 设备 进行 设置 ; 如 果 网 络 出 现 了 故障 ， 同 样 需要 连接 每 一 个 相关 设备 逐个 排查 才能 定位 问题 。 


例如 ， 用 户 需要 为 某 一 个 业务 部 署 5 个 虚拟 机 ， 每 个 虚拟 机 有 两 个 vCPU (4G RAM ，100GB 人 存储 资源 ) ， 虚 拟 机 的 网 址 是 192.168.10.0/24， 属 于 166 虚 拟 子 网 (VLANID 为 166) 。 在 传统 网 络 中 ， 用 户 
在 为 虚拟 机 分 配 网 络 资源 的 时 候 ， 需 要 首先 检查 物理 网 络 拓扑 是 否 支 持 ， 如 果 不 支 持 则 首先 到 数据 中 心机 房 调 整 物理 拓扑 ， 调 整 的 时 候 要 考虑 机 房 机 架 、 电 源 、 端 口 、 制 冷 ， 设 备 之 间 的 兼容 性 、 安 全 性 、 
软件 版 本 、 权 限 等 问题 ， 而 且 不 能 影响 其 他 正在 运行 的 服务 器 。 接 下 来 通过 CLI 登 录 到 虚拟 机 连接 的 物理 交换 设备 上 设置 端口 VAN、 子 网 的 路 由 。 如 果 虚 拟 机 对 网 络 防火 墙 、Qos 或 者 网 络 协议 方面 有 要 
求 ， 则 同样 需要 在 相应 的 设备 上 做 设置 和 调整 。 可 以 看 出 ， 这 一 整个 过 程 全 是 手工 完成 ， 非 常 复杂 和 繁琐 ， 耗 时 耗 力 ， 而 且 极 其 容易 出 错 。 由 于 这 种 设置 是 网 络 局 部 的 调整 ， 没 有 从 全 网 的 角度 来 考虑 ， 很 
容易 造成 对 全 局 网 络 的 负面 影响 。 


正 是 由 于 以 上 几 个 方面 原因 ， 当 前 网 络 逐 渐 向 动态 、 协 同 、 可 编程 、 整 合 优化 的 网 络 转变 ， 这 种 转变 推动 SDN 软 件 定义 网 络 的 兴起 ， 即 一 种 灵活 开放 的 网 络 架 构 ， 一 种 将 部 分 或 全 部 网 络 功能 软件 化 和 
服务 化 ， 更 好 地 开放 给 用 户 和 业务 ， 让 用 户 和 业务 更 好 地 使 用 和 部 署 网 络 ， 以 适应 快速 变化 的 云 计算 业务 。 所 以 ， 面 向 云 计 算 的 下 一 代数 据 中 心 的 客户 业务 对 网 络 开放 的 诉求 才 是 能 真正 推动 数据 中 心 SDN 
发 展 的 驱动 力 。 


2.3DN 的 起 源 和 发 展 状 况 


2006 年 ， 斯 坦 福 大 学 启动 了 名 为 “Clean-Slate Design for the Internet” 项 目 ， 该 项 目 旨 在 研究 提出 一 种 全 新 的 网 络 技术 ， 以 突破 目前 互联 网 基础 架构 的 限制 ， 更 好 地 支持 新 的 技术 应 用 和 创新 。 该 
项 目 中 ， 来 自 斯 坦 福 大 学 的 学 生 Martin Casado 和 他 的 导师 Nick McKeown 教 授 等 研究 人 员 提 出 了 Ethane 架 构 ， 即 通过 一 个 集中 控制 器 向 基于 流 的 以 太 网 交换 机 发 送 策略 ， 实 现 对 流 的 控制 、 路 由 的 统一 管 
理 。 受 到 其 研究 项 目 Ethane 的 启发 ，Martin Casado 和 Nick McKeown 教 授 随后 提出 了 OpenFlow 概 念 ， 其 核心 思想 是 将 传统 网 络 设备 的 数据 转发 (Data Plane) 面 和 路 由 控制 (Control Plane) 面相 分 
离 ， 通 过 集中 控制 器 (Controller) 以 标准 化 接口 对 各 种 网 络 设备 进行 配置 管理 。 这 种 网 络 架 构 为 网 络 资源 的 设计 、 管 理 和 使 用 提供 了 更 多 的 可 能 性 ， 从 而 更 容易 推动 网 络 的 革新 与 发 展 。 由 于 OpenFlow 开 
放 了 网 络 编程 能 力 ， 因 此 Ethane 被 认为 是 SDN 技 术 的 起 源 。 


4.1.2 ”SDN 的 架构 和 特征 


SDN 可 以 用 如 图 4-1 所 示 的 逻辑 架构 来 定义 ， 一 个 SDN 网 络 中 包含 三 个 架构 层级 : 数据 层 (Data Plane) ， 控 制 层 (Control Plane) 以 及 顶层 的 应 用 层 (Application Plane) 。 
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图 4-1 SDN 的 逻辑 架构 


数据 层 主要 由 网 络 设备 (Network Device) 即 支 持 南 向 协议 的 SDN 交 换 机 组 成 ， 它 们 可 以 是 物理 交换 机 或 者 虚拟 交换 机 ， 保 留 了 传统 网 络 设备 数据 转发 的 能 力 ， 负 责 基于 流 表 的 数据 处 理 、 转 发 和 状 
态 收 集 。 在 当前 SDN 方 法 中 ， 供 应 商 只 是 把 应 用 和 控制 器 作为 单独 产品 提供 。 例 如 ，Nicira/VMware 将 其 应 用 和 控制 器 打包 到 一 个 单独 的 专属 应 用 堆栈 中 ， 思 科 则 通过 把 控制 器 嵌入 IOS 软 件 的 方式 把 控制 
器 打包 到 OnePK 产 品 中 。 


控制 层 主要 包含 控制 器 及 网 络 操作 系统 (Network Operation System, NOS) ， 负 责 处 理 数 据 层 资源 的 编排 、 维 护 网 络 拓扑 、 状 态 信息 等 ; 控制 器 是 一 个 平台 ， 该 平台 向 下 可 以 直接 使 用 OpenFlow 
协议 或 其 他 南 向 接口 与 数据 层 会 话 ; 向 上 ， 为 应 用 层 软 件 提供 开放 接口 ， 用 于 应 用 程序 检测 网 络 状态 、 下 发 控制 策略 。 大 多 数 SDN 控 制 器 都 提供 了 图 形 界面 ， 这 样 可 以 将 整个 网 络 以 可 视 化 的 效果 展示 给 管 


理 员 。 


顶层 的 应 用 层 由 众多 应 用 软件 构成 ， 这 些 软件 能 够 根据 控制 器 提供 的 网 络 信息 执行 特定 控制 算法 ， 并 将 结果 通过 控制 器 转化 为 流量 控制 命令 ， 下 发 到 基础 设施 层 的 实际 设备 中 。 事 实 上 ， 应 用 层 是 SDN 
最 吸引 人 的 地 方 ， 原 因 是 SDN 实 现 了 应 用 和 控制 的 分 离 ， 开 发 人 员 可 以 基于 控制 器 提供 的 API 来 自 定义 网 络 ， 自 身 只 需 专注 于 业务 的 需求 而 不 需要 像 传统 方式 那样 从 最 底层 的 网 络 设备 开始 部 署 应 用 ， 这 大 
大 简化 了 应 用 开发 的 过 程 ， 而 且 ， 大 部 分 SDN 控 制 器 向 上 提供 的 API 都 是 标准 化 、 统 一 化 的 ， 这 使 得 应 用 程序 不 用 修改 就 可 以 自由 在 多 个 网 络 平台 移植 。 


1.SDN 的 北向 、 南 向 及 东西 向 接口 
SDN 网 络 控制 器 与 网 络 设备 之 间 通 过 专门 的 控制 层 和 数据 层 接口 连接 ， 该 接口 是 支持 SDN 技 术 实 现 的 关键 接口 。 
(1) 北向 接口 


SDN 北 向 接口 是 SDN 控 制 器 和 应 用 程序 、 管 理 系统 和 协调 软件 之 间 的 应 用 编程 接口 ， 通 过 控制 器 向 上 层 业 务 应 用 开放 的 接口 ， 业 务 应 用 能 够 便利 地 调用 底层 的 网 络 资源 和 能 力 。 通 过 北向 接口 ， 网 络 业 
务 的 开发 者 能 以 软件 编程 的 形式 调用 各 种 网 络 资源 ; 同时 上 层 的 网 络 资源 管理 系统 可 以 通过 控制 器 的 北向 接口 全 局 掌控 整个 网 络 的 资源 状态 ， 并 对 资源 进行 统一 调度 。 比 如 Openstack 项 目 中 的 
Neutron (Quantum) API 就 是 一 个 典型 的 北向 接口 ， 通 过 与 多 种 SDN 控 制 器 集成 对 外 开放 ， 租 户 或 者 应 用 程序 可 以 利用 这 组 接口 自 定义 网 络 、 子 网 、 路 由 、QoS、VLAN 等 ， 并 且 可 以 通过 这 些 接口 查看 
当前 网 络 的 状况 。 


当前 的 北向 接口 并 没有 完全 的 标准 ， 更 多 的 是 跟 平 台 相 关 ，SDN 组 织 正 致力 定义 统一 规范 的 北向 接口 ， 比 如 ONF。ONF 执 行 总 监 Dan Pitt 曾 经 指出 ， 实 在 不 行 就 开发 一 个 标准 北向 API。 但 通过 一 定 规 
范 来 控制 其 潜在 用 途 ， 供 网 络 运营 商 、 矿 商 和 开发 商 使 用 。 


北向 接口 的 设计 对 SDN 的 应 用 有 着 至 关 重 要 的 作用 ， 原 因 是 这 些 接口 是 为 应 用 程序 所 直接 调用 的 ， 应 用 程序 的 多 样 性 和 复杂 性 对 北向 接口 的 合理 性 、 便 捷 性 和 规范 性 有 着 直接 的 要 求 ， 这 直接 关系 到 
SDN 是 否 能 获得 广泛 应 用 。 


(2) 南 向 接口 


南 向 API 或 协议 工作 在 两 个 最 底层 (交换 ASIC 或 虚拟 机 ) 和 中 间 层 (控制 器 ) 之 间 。 它 主要 用 于 通信 ， 人 允许 控制 器 在 硬件 上 安装 控制 层 决 策 从 而 控制 数据 层 。 包 括 链 路 发 现 、 拓 扑 管理 、 策 略 制定 、 表 
项 下 发 等 ， 其 中 链 路 发 现 和 拓扑 管理 主要 是 控制 其 利用 南 向 接口 的 上 行 通道 对 底层 交换 设备 上 报信 息 进行 统一 监控 和 统计 ; 而 策略 制定 和 表 项 下 发 则 是 控制 器 利用 南 向 接口 的 下 行 通道 对 网 络 设备 进行 统一 
控制 。 


OpenFlow 是 最 典型 的 南 向 协议 ， 目 前 的 最 新 版 本 是 1.4，OpenFlow 定 义 了 非常 全 面 和 系统 的 标准 来 控制 网 络 ， 因 而 是 目前 最 具 发 展 前 景 的 南 向 协议 ， 也 是 获得 支持 最 多 的 网 络 协议 ， 甚 至 有 人 认为 


OpenFlow 就 是 SDN， 本 章 后 面 的 部 分 将 会 对 OpenFlow 进 行 更 详细 的 介绍 。 


还 有 其 他 一 些 南 向 通信 实现 方式 正在 研究 中 ， 比 如 VXLAN。VXLAN 规 范 记录 了 终端 服务 器 或 虚拟 机 的 详细 框架 ， 并 把 终端 节点 (end point) 的 连接 定义 为 网 络 。VXLAN 的 关键 假设 是 交换 网 络 (交换 
机 、 路 由 器 ) 不 需要 指令 程序 ， 而 是 从 SDN 控 制 器 中 提取 。VXLAN 对 SDN 的 定义 是 通过 控制 虚拟 机 以 及 用 SDN 控 制 器 定义 基于 这 些 虚 拟 机 通信 的 域 和 流量 而 实现 的 ， 并 不 是 对 以 太 网 交换 机 进行 编程 。 


(3) 东西 向 接口 


SDN 发 展 中 面临 的 一 个 问题 就 是 控制 层 的 扩展 性 ， 也 就 是 多 个 设备 的 控制 层 之 间 如 何 协 同 工 作 ， 这 涉及 SDN 中 控制 层 的 东西 向 接口 的 定义 问题 。 如 果 没 有 定义 东西 向 接口 ， 那 么 SDN 充 其 量 只 是 一 个 数 
据 设 备 内 部 的 优化 技术 ， 不 同 SDN 设 备 之 间 还 是 要 还 原 为 IP 路 由 协议 进行 互联 ， 其 对 网 络 染 构 创新 的 影响 力 就 十 分 有 限 。 如 果 能 够 定义 标准 的 控制 层 的 东西 向 接口 ， 就 可 以 实现 SDN 设 备 “ 组 大 网 ”， 使 得 
SDN 技 术 走 出 IDC， 走 出 数据 设备 ， 成 为 一 种 有 革命 性 影响 的 网 络 架构 。 目 前 对 于 SDN 东 西向 接口 的 研究 还 刚刚 起 步 ，IETF 和 ITU 均 未 涉及 这 个 研究 领域 。 通 常 SDN 控 制 器 通过 控制 器 集群 技术 来 解决 这 个 
问题 ， 比 如 Hazelcast 技 术 ， 控 制 器 集群 能 提供 负载 均衡 、 故 障 转移 ， 提 高 控制 器 的 可 靠 性 。 


2.SDN 的 特征 


SDN 的 出 现 打破 了 传统 网 络 设备 制造 商 独立 而 封闭 的 控制 平面 结构 体系 ， 将 改变 网 络 设备 形态 和 网 络 运 莒 商 的 工作 模式 ， 对 网 络 的 应 用 和 发 展 将 产生 直接 影响 。 从 技术 层面 和 应 用 层面 来 看 ，SDN 的 特 
点 主要 体现 在 以 下 几 个 方面 : 


1) 数据 层 与 控制 层 的 分 离 ， 在 控制 平面 对 网 络 集中 控制 。 通 过 控制 平面 功能 的 集中 以 及 数据 平面 和 控制 平面 之 间接 口 的 规范 ， 实 现 对 不 同 三 商 的 设备 统一 、 灵 活 、 高 效 的 管理 和 维护 。 数 据 平面 和 控制 
平面 的 分 离 ， 并 且 支 持 集中 控制 ， 这 是 Clean Slate 项 目 组 最 早 赋予 SDN 的 特征 ， 就 是 把 原来 IP 网 络 设备 上 的 路 由 控制 层 集中 到 一 个 控制 器 上 ， 网 络 设备 根据 控制 器 下 发 的 控制 表 项 进行 转发 ， 自 身 不 具备 太 
多 智能 性 。 

2) 网 络 接口 开放 是 SDN 技 术 的 本 质 特征 ， 是 目前 SDN 主 要 价值 的 体现 。SDN 通 过 北向 接口 开放 给 应 用 程序 的 应 用 和 业务 可 以 通过 调用 API 获 取 网 络 的 能 力 ， 实 现 业务 和 网 络 的 精密 融合 ， 通 过 南 向 接口 
的 开放 ， 实 现 网 络 控制 层面 和 数据 层面 的 分 离 ， 使 得 不 同 厂商 的 设备 可 以 兼容 ; 通过 对 东西 向 接口 的 开放 ， 可 以 实现 控制 层 的 扩展 ， 使 多 个 控制 器 协同 工作 ， 提 高 控制 器 的 可 用 性 。 


3) 实现 网 络 的 虚拟 化 ， 利 用 以 网 络 苇 加 技术 为 代表 的 网 络 封 装 和 隧道 协议 ， 让 逻辑 网 络 摆脱 物理 网 络 隔离 ， 实 现 物理 网 络 对 上 层 应 用 的 透明 化 ， 逻 辑 网 络 和 物理 网 络 分 离 后 ， 有 逻辑 网 络 可 以 根据 业务 需 
要 进行 配置 、 迁 移 ， 不 再 受 具 体 设备 物理 位 置 的 限制 。 同 时 ， 风 辑 网 络 还 支持 多 租户 共享 ， 支 持 租户 网 络 的 定制 需求 。 目 前 ， 网 络 虚 拟 化 的 应 用 场景 主要 用 于 数据 中 心 ， 以 近年 来 数据 中 心 内 的 虚拟 网 络 设 
备 为 代表 : vSwitch、vRouter、vFirewall 等 这 些 产 品类 似 于 服务 器 资源 的 虚拟 化 ， 就 是 在 通用 服务 器 虚拟 机 平台 上 ， 通 过 软件 的 方式 ， 模 拟 实现 传统 设备 功能 ， 从 而 实现 最 灵活 的 设备 能 力 ， 带 来 最 方便 的 
部 署 和 管理 。 网 络 虚 拟 化 将 传输 、 计 算 、 存 储 等 能 力 融合 ， 在 集中 式 控制 的 网 络 环境 下 ， 有 效 调 配 网 络 资源 支持 业务 目标 的 实现 和 用 户 需求 ， 提 供 更 高 的 网 络 效率 和 良好 的 用 户 体验 。 


4) 支持 业务 的 快速 部 署 ， 简 化 业务 配置 流程 。 传 统 网 络 由 于 网 络 和 业务 割裂 ， 大 部 分 网 络 的 配置 是 通过 命令 行 或 者 网 络 管理 员 手工 配置 的 。 由 于 本 身 是 一 个 静态 的 网 络 ， 当 遇 到 需要 网 络 及 时 做 出 调整 
的 动态 业务 时 ， 就 显得 非常 低 效 ， 甚 至 无 法 实施 。SDN 的 集中 控制 和 可 编程 能 力 使 得 整个 网 络 可 在 逻辑 上 被 视 作 一 台 设 备 进 行 运行 和 维护 ， 无 需 对 物理 设备 进行 现场 物理 分 散 配 置 ， 开 放 的 API 使 得 用 户 业 
务 可 以 利用 编排 工作 流 实现 业务 部 署 和 业务 调整 的 自动 化 实施 ， 让 用 户 的 业务 部 署 和 调整 摆脱 了 手工 分 散 配置 的 约束 ， 降 低 了 设备 配置 风险 ， 提 高 了 网 络 部 署 的 敏捷 性 。 


5) 更 好 地 支持 用 户 个 性 化 定制 业务 的 实现 ， 为 网 络 运 营 商 提供 便捷 的 业务 创新 平台 。SDN 的 核心 是 软件 定义 ， 其 本 质 是 网 络 对 业务 的 快速 灵活 响应 和 快速 业务 创新 。 


4.1.3 SDN 相关 组 织 介绍 


1.ONF 


2011 年 ， 在 雅虎 、 谷 歌 、 德 国电 信 等 几 家 公司 的 倡议 下 ， 开 放 网 络 基金 会 (Open Networking Foundation, ONF) 成 立 ， 其 致力 于 软件 定义 网 络 及 其 核心 技术 OpenFlow 的 标准 化 (规范 制订 ) 以 
及 商业 化 。ONF 的 成 员 由 董事 会 成 员 及 普通 会 员 两 部 分 组 成 ， 董 事 会 成 员 包 括 德 国电 信 、 日 本 NTT 电 信 、Facebook、 人 谷歌、 微软 、Verizon、 雅 虎 以 及 知名 投行 高 盛 公 司 8 家 公司 ; 普通 会 员 则 包括 网 络 设 
备 商 、 网 络 运 营 商 、 服 务 器 虚拟 化 厂商 、 网 络 庶 拟 化 厂商 、 忌 片 商 、 测 试 仪表 厂商 等 在 内 的 80 多 家 公司 。 


ONF 组 织 架构 如 图 4-2 所 示 。 组 织 架 构 包 括 扩 展 性 组 、 配 置 和 管理 组 、 测 试 和 互 操作 组 、 混 合 模式 组 、 市 场 培 育 组 、 架 构 组 、 北 向 API 组 7 个 工作 组 。ONF 根 据 对 SDN 技 术 方 案 的 研究 成 果 ， 不 定期 发 布 
技术 报告 、 技 术 白 皮 书 以 及 相关 的 标准 规范 制订 和 维护 。 
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图 4-2 ”ONF 组 织 结构 


ONF 是 SDN 技 术 领 域 的 推动 者 ， 其 主要 的 研究 成 果 包 括 定义 SDN 基 本 架构 、OpenFlow 标 准 和 OpenFlow 配 置 与 管理 协议 。 国 际 互联 网 工程 组 成 立 了 SDNBOF， 并 且 提 出 了 他 们 所 认为 的 SDN 架 构 。 其 
早期 的 两 个 研究 工作 组 之 一 ForCES 已 经 发 布 了 9 个 RFC， 主 要 涉及 需求 、 框 架 、 协 议 、 转 发 单元 模型 、M1B 等 ; 另 一 个 工作 组 ALTO 主 要 通过 为 应 用 层 提 供 更 多 的 网 络 信息 来 完成 应 用 层 的 流量 优化 。 国 际 电 
言 联盟 在 SG13 组 明确 了 SDN 的 研究 任务 ， 相 关 工 作 在 WP5 组 Q21 研 究 ， 目 前 成 立 了 Y.FNsdn-fm 和 Y.FNsdn 两 个 项 目 ， 分 别 面 向 SDN 的 需求 和 框架 。 中 国 通信 标注 化 协会 也 成 立 了 多 个 SDN 研 究 组 ， 主 要 涉 
及 应 用 场景 及 需求 、 问 题 分 析 、 术 语 定义 、 互 通 规 范 和 测试 规范 等 。SDN 技 术 还 处 于 起 步 阶段 ， 各 方面 还 都 处 于 尝试 探索 阶段 ， 但 是 各 国都 积极 参与 到 这 场 网 络 改良 工作 中 来 ， 有 朝 一 日 SDN 必 将 付 诸 实 


施 ， 真 正 达到 其 优化 网 络 的 目的 。 
2.0DL 


ODL (OpenDayLight) 是 2013 年 4 月 由 多 家 业界 著名 的 IT 厂商 发 起 的 开源 项 目 ， 厂 商 包括 思科 、IBM、VMware、 惠 普 、 英 特 尔 、Juniper 等 18 家 | 巨头 。 该 项 目 和 Linux 基 金 会 合作 ， 致 力 于 打造 一 个 
开源 的 基于 SDN 的 平台 框架 ， 这 个 框架 从 上 到 下 包括 网 络 应 用 和 服务 、 北 向 接口 、 中 心 控 制 器 平台 、 南 向 接口 ， 但 是 不 包括 数据 层 ， 几 乎 可 以 看 成 是 一 个 网 络 操作 系统 。 


ODL SDN 框 架 如 图 4-3 所 示 ， 北 向 接口 使 用 了 现在 很 流行 的 REST API 接 口 ， 可 以 很 灵活 地 文 持 各 种 应 用 ; 控制 层 提 供 网 络 服务 和 平台 服务 功能 ， 而 且 支 持 功能 的 扩展 ; 南 向 接口 包括 OpenFlow 以 及 很 
多 其 他 接口 ， 比 如 SNMP、LISP、XMPP、OF-Config、Net-Config 等 ， 包 括 我 们 后 面 要 介绍 的 NVP 使 用 的 OVSDB 南 向 接口 。 和 ONF 主 要 是 由 网 络 用 户 ， 比 如 微软 、Facebook 发 起 不 同 ，ODL 的 发 起 者 
主要 是 设备 商 和 软件 商 ， 所 以 ODL 更 强调 SDN 南 向 接口 的 多 样 性 和 自主 性 ， 而 不 是 标准 性 ， 它 认为 除了 北向 接口 ， 其 他 的 各 个 层面 都 是 允许 在 标准 之 外 进行 扩展 的 。 
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出 于 跨 平台 的 考虑 ，ODL 采 用 Java 语 言 编写 ， 可 以 部 署 在 多 种 系统 平台 上 ， 理 论 上 甚至 可 以 安装 在 手机 上 ， 让 网 络 管理 员 的 移动 网 络 管理 梦想 变 为 现实 。 


从 ODL 的 成 立 可 以 看 出 SDN 为 产业 的 发 展 带 来 了 新 机 会 和 新 方向 ， 也 可 以 看 到 各 个 厂商 为 了 在 这 波 SDN 浪 潮 中 占有 一 席 之 地 ， 都 在 努力 参与 到 各 种 组 织 中 发 出 自己 的 声音 ， 力 求 使 自己 的 利益 最 大 化 .。 
3.IETF 


互联 网 工程 任务 组 (Internet Engineering Task Force, IETF) 成 立 于 1985 年 底 ， 是 全 球 互 联网 最 具 权 威 的 技术 标准 化 组 织 ， 主 要 任务 是 负责 互联 网 相关 技术 规范 的 研 友 和 制定 ， 当 前 绝 大 多 数 国际 互 
联网 技术 标准 都 出 自 IETF。 


与 ONF 相 比较 ，IETF 的 相关 工作 更 多 的 是 由 网 络 设备 厂商 主导 ， 聚 焦 于 SDN 相 关 功 能 和 技术 如 何在 网 络 中 实现 的 细节 上 。1ETF 重 点 研究 项 目 包 括 基 于 XML 的 SDN (XML-based SDN) 、 路 由 系统 接口 
(Interface to Routing System，12RS) 及 转发 和 控制 分 离 (Forwarding and Control Element Separation, ForCES) 。 


IETF ForCES 的 目标 是 定义 一 种 架构 和 相关 机 制 ， 用 于 在 逻辑 上 分 离 的 控制 层 和 转发 层 之 间 交 互信 息 ， 实 际 上 是 定义 了 SDN 中 转发 与 控制 分 离 的 一 种 可 行 的 实现 机 制 。 该 工作 组 从 2003 年 至 今 共 发 布 了 9 
篇 RFC 文 稿 ， 内 容 涉及 需求 、 框 架 、 协 议 、 转 发 单元 模型 以 及 管理 信息 库 (MIB) 等 多 个 领域 。 


在 IETF 第 84 次 、85 次 会 议 期 间 ，IETF 成 立 了 路 由 领域 公开 的 研究 组 ， 重 点 研究 路 由 系统 接口 (12RS) 的 问题 描述 、 需 求 、 应 用 场景 和 架构 模型 等 。12RS 主 张 在 现 有 的 网 络 层 协 议 基础 上 增加 插件 
(plug-in) ， 并 在 网 络 与 应 用 层 之 间 增 加 SDN Orchestrator 进 行 能 力 开放 的 封装 ， 而 不 是 直接 采用 OpenFlow 进 行 能 力 开放 ， 目 的 是 尽量 保留 和 重用 现 有 的 各 种 路 由 协议 和 IP 网 络 技术 。12Rs 的 路 由 系统 
需要 发 布 网 络 拓扑 和 状态 ， 通 过 网 络 元 数据 进行 计算 选 路 ， 并 将 相关 结果 传递 给 各 设备 的 控制 层 。12RS 接 口 的 使 用 者 可 能 是 管理 应 用 、 网 络 控制 器 或 者 对 网 络 定制 的 用 户 应 用 ， 目 前 |2Rs 工 作 组 还 没有 形成 
RFC 和 工作 组 文稿 。12RS 的 研究 草案 显示 的 支持 SDN 的 体系 架构 如 图 4-4 所 示 。 
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图 4-4 IETF 支 持 SDN 的 I2RS 架 构 


4.ETSI 


欧洲 电信 标准 化 协会 (European Telecommunications Standards Institute, ETSI) 是 独立 的 非 营 利 性 信息 和 通信 技术 (ICT) 标准 化 组 织 ， 创 建 于 1988 年 ， 总 部 位 于 法 国 尼斯 。ETSI 现 有 来 自 欧洲 
和 其 他 地 区 共 63 个 国家 的 750 名 成 员 ， 其 中 包括 : 制造 商 、 网 络 运营 商 、 政 府 、 服 务 提供 商 、 研 究 实体 以 及 用 户 等 |CT 领 域内 的 重要 成 员 。ETSI 作 为 欧洲 对 世界 1CT 标 准 化 工作 的 贡献 在 制定 一 系列 标准 和 其 
他 技术 文件 的 过 程 中 起 了 十 分 重要 的 作用 。 互 用 性 测试 服务 和 其 他 专门 服务 共同 构成 了 ETSI 的 活动 。ETSI 的 首要 目标 是 通过 提供 一 个 所 有 重要 成 员 都 能 积极 参与 到 其 中 的 论坛 支持 全 球 的 融合 。 


2012 年 10 月 ，AT&T、 英 国电 信 BT、 德 国电 信 等 7 家 运营 商 在 ETSI 发 起 了 一 个 新 的 网 络 功能 虚拟 化 标准 工作 组 NFV ISG (Networking Functions Virtualization Industry Specification Group) , 
前 已 经 有 52 家 网 络 运营 商 、 电 信 设 备 供应 商 、IT 设 备 供应 商 以 及 技术 供应 商 参 加 。 


NFV 工 作 的 主要 目的 是 将 SDN 的 理念 引入 电信 业 ， 解 决 电信 运营 商 多 年 来 的 “ 痛 点 。”， 包 括 高 昂 的 网 络 成 本 ， 封 闭 的 网 络 功能 ， 专 用 设备 类 型 多 、 数 量 多 、 生 命 周 期 短 ， 新 业务 开发 困难 、 周 期 长 、 营 
运 成 本 高 等 问题 。 这 从 NFV ISG 的 主要 成 员 是 电信 运营 商 就 可 以 看 出 来 ，NFV 认 为 ， 只 有 “ 软 硬 件 解 厢 ” 的 方式 才能 真正 打破 电信 设备 多 年 来 高 曾 的 “围墙 ”， 才 能 让 电信 和 网络 摆脱 “ 黑 盒 子 ” 的 宿命 


以 此 进一步 降低 每 年 不 断 攀 升 的 建设 和 维护 网 络 的 成 本 ， 同 时 为 电信 了 网络 功 能 注入 新 的 活力 。 在 这 样 的 架构 下 ， 网 络 功能 需要 能 够 动态 


、 灵 活 地 进行 部 署 ， 不 受 限 于 物理 网 络 。 


NFV 主 要 侧重 于 网 络 7 层 协议 中 上 层 部 分 (4~ 7 层 ) 应 用 的 虚拟 化 〈 如 图 4-5 所 示 ) ， 通 过 软件 实现 多 种 多 样 的 网 络 功能 ， 如 虚拟 的 运营 级 NAT、 虚 拟 的 广域网 优化 、 虚 拟 的 接 入 路 由 器 等 。 
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图 4-5 NEFV 框 架 
NFV 说 明 SDN 的 触角 已 通过 传输 网 、 融 合 接 入 、 未 来 移动 网 以 及 智能 管道 业务 等 领域 伸 向 整个 电信 网 络 。 


SOCR 


开放 计算 项 目 (Open Compute Project, OCP) 是 由 Facebook 发 起 的 开放 计算 项 目 ， 与 英特尔 、AMD、 惠 普 、 戴 尔 等 进行 合作 开发 数据 中 心 ，Facebook 会 对 外 公布 其 数据 中 心 规格 。OCP 的 目标 
是 用 PC 的 模式 来 做 网 络 设 备 。 它 们 会 定义 一 套 标准 ， 硬 件 设备 只 需要 按照 这 些 标 准 去 做 ， 就 可 以 像 PC 一 样 在 市 场 上 卖 ， 最 终 用 户 可 以 任意 选择 网 络 设备 ， 自 行 安装 操作 系统 、 协 议 栈 和 一 些 管理 应 用 程序 ， 
设备 底层 驱动 由 设备 商 提供 ， 或 者 可 以 在 网 上 自由 下 载 ， 就 像 PC 驱 动 一 样 。 这 些 标准 包括 但 不 限于 以 下 几 点 : @ 一 个 标准 的 BootLoader 用 于 系统 引导 ; @ 硬 件 相关 的 信息 ， 比 如 MAC 地 址 、 序 列 号 等 ; © 
软件 安装 程序 和 印 载 程序 ，@ 一 个 最 小 的 Kernel; @ 一 些 通用 部 件 的 标准 化 ， 比 如 串口 、 带 外 管理 口 等 。 


OCP 若 能 做 成 ， 对 SDN 的 发 展会 有 举足轻重 的 意义 ， 因 为 这 将 是 最 彻底 的 SDN， 对 整个 产业 链 格 局 的 改变 也 是 显而易见 的 。 对 整个 行业 来 说 ， 它 绝对 是 积极 的 、 正 面 的 ,会 极 大 地 促进 网 络 的 创新 。 但 
这 件 事情 的 阻力 和 难度 也 是 可 想 而 知 的 。 


414 各 大 厂商 对 SDN 的 态度 和 应 用 
1. 思 科 


作为 传统 网 络 设备 商 的 领导 和 代表 ， 思 科 对 SDN 的 态度 对 整个 IT 界 具 有 举足轻重 的 影响 和 作用 。 实 际 上 ， 它 也 经 历 了 从 强烈 排斥 到 被 迫 布局 ， 最 后 变 为 积极 参与 并 创新 发 展 的 过 程 ， 这 几乎 是 SDN 对 业 
影响 过 程 的 一 个 缩影 ， 可 以 看 出 SDN 在 一 步 步 影响 整个 IT 生态 圈 ， 也 可 以 看 出 传统 网 络 三 商 在 SDN 大 潮 中 的 转型 和 革新 。 


SDN 对 思科 影响 是 多 方面 的 。 一 方面 ，SDN 会 直接 影响 思科 的 一 利 。 据 说 ， 思 科 CEO 钱 伯 斯 曾经 在 一 次 高 层 会 议 上 向 公司 其 他 高 管 发 问 : “如 果 思科 进军 SDN 市 场 会 怎么 样 ? ”最 终 讨论 的 结果 是 ， 思 
科 自 己 进 军 SDN 市 场 会 使 现 有 硬件 业务 规模 从 430 亿 美元 下 降 至 220 亿 美元 ， 这 意味 着 思科 在 斩 断 自己 的 盔 利 动脉 。 可 是 如 果 不 选择 SDN， 结 果 会 怎样 呢 ? 思科 可 能 会 失去 网 络 设备 市 场 的 绝对 优势 地 位 ， 这 
从 痛 失 亚马逊 价值 10 亿 美元 大 单 事件 就 可 以 看 出 来 ， 亚 马 逊 直接 选择 了 更 廉价 的 硬件 配合 SDN 技 术 来 满足 自己 的 业务 需求 ， 让 思科 感到 了 SDN 带 来 的 真正 威胁 。 另 一 方面 ，SDN 人 迫使 思科 加 快 从 设备 供应 商 
向 软件 和 服务 提供 商 的 转型 ， 加 快 对 SDN 的 深度 布局 和 积极 参与 ， 思 科 推出 的 Cisco ONE (Open Network Environment) 可 以 视 为 基于 专用 接口 的 SDN 产 品 。Cisco ONE 将 平台 API (应 用 编程 接口 ) 、 
Agent、 控 制 器 、 网 络 虚 拟 化 和 多 种 网 络 覆盖 技术 进行 一 体 化 完备 整合 ， 不 仅 沽 盖 了 从 传输 到 管理 和 协调 的 整套 解决 方案 ， 而 且 补 充 了 当前 的 软件 定义 网 络 方法 。 利 用 思科 的 开放 式 网 络 环境 ， 用 户 可 以 通 
过 跨 多 层 的 网 络 可 编程 性 和 抽象 性 驾驭 智能 网 络 ， 提 供 丰 富 的 协议 、 行 业 标准 以 及 基于 使 用 的 部 署 模型 选项 。 


Cisco ONE 包 含 了 思科 推出 的 多 方面 技术 创新 (如 图 4-6 所 示 ) 。 其 中 平台 软件 开发 套件 (One Platform Kit, onePK) 可 跨越 |OS、1IOS-XR 和 NX-OS 等 思科 操作 系统 ， 为 开发 人 员 提 供应 用 程序 编程 
接口 。 思 科 还 宣布 推出 用 于 SDN 研 发 的 概念 验证 控制 器 软件 和 概念 验证 OpenFlow Agent。 此 外 ， 思 科 通 过 Cisco Nexus 1000V 虚 拟 交 换 机 帮助 构建 可 扩展 的 虚拟 覆盖 网 络 ， 以 便 进 行 多 租户 云 部 署 。 其 他 
创新 包括 OpenStack 支 持 、 可 编程 性 、 多 虚拟 机 管理 程序 功能 以 及 VXLAN 网 关 功 能 。 
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图 4-6 Cisco ONE 架构 


同时 ， 为 了 继续 保持 自己 在 未 来 的 优势 地 位 ， 能 够 和 谷歌 、Facebook 主 导 的 ONF 分 庭 抗 礼 ， 思 科 和 1BM 联 合 其 他 厂商 筹建 和 发 起 了 开源 项 目 ODL (OpenDayLight) ， 目 前 思科 是 ODL 的 白金 会 员 ， 
而 且 是 这 一 项 目的 主要 领导 者 之 一 。 思 科 向 ODL 贡 献 了 基于 Java 的 BGP/ 路 径 计 算 单元 协议 库 ， 主 导 了 SDN 控 制 器 的 开发 ， 并 且 负 责 和 共同 负责 了 ODL 内 部 的 大 部 分 项 目 ， 目 的 就 是 将 自己 的 标准 发 展 为 实 
际 标准 ， 控 制 SDN。 


2013 年 11 月 ， 思 科 宣 布 完 成 对 孵化 公司 Insieme Networks 的 完全 收购 ， 并 推出 Insieme 应 用 中 心 基 础 设施 (Application Centric Infrastructure, ACI) ， 包 括 核心 交换 机 Nexus 9508， 声 称 可 以 通 
过 软件 控制 一 切 应 用 程序 政策 基础 设施 控制 器 (Application Policy Infrastructure Controller, APIC) 和 新 操作 系统 NX-OS。Nexus 9000 交 换 机 结合 了 商用 必 片 和 思科 的 定制 必 片 ， 使 其 既 可 以 运行 于 商 
用 芯片 的 独立 模式 ， 也 可 以 运行 于 ACI 模 式 。 商 用 芯片 为 用 户 提供 开源 支持 ， 支 持 OpenFlow、OpenDayLight 控 制 器 以 及 思科 的 onePK 可 编程 性 ， 而 定制 芯片 则 可 以 获得 反 SDN 功 能 : ACI 和 APIC 控 制 器 具 
有 硬件 加 速 功 能 、 对 应 用 程序 交互 和 行为 的 深入 可 视 性 以 及 细 粒 度 服务 水 平 指标 。APIC 为 自动 化 和 管理 ACI 和 矩阵、 进行 策略 编程 和 监控 状态 提供 了 一 个 统一 平台 ， 它 能 够 优化 性 能 ， 支 持 任意 地 方 的 应 用 ， 
并 统一 物理 和 虚拟 基础 设施 的 管理 工作 。APIC 是 一 个 高 度 可 扩展 的 集群 软件 控制 器 ， 能 够 管理 100 万 个 终端 。 与 传统 SDN 控 制 器 不 同 ， 它 不 受 交 换 机 数据 和 控制 层 的 影响 ， 因 此 即使 APIC 离 线 ， 网 络 也 能 
对 终端 变化 做 出 响应 ， 此 外 ，APIC 还 支持 灵活 地 定义 和 自动 化 应 用 网 络 ， 并 提供 了 出 色 的 可 编程 性 与 强大 的 集中 管理 能 力 。 经 过 优化 后 的 新 版 NX-OS 操 作 系 统 ， 能 够 在 高 性 能 数据 中 心 网 络 中 实现 无 与 伦比 
的 “ 零 接 触 ”运行 ， 可 为 客户 节省 数 百 万 美元 的 资本 支出 和 运营 支出 ， 而 且 获 得 了 一 大 串 合 作 伙 伴 的 支持 ,包括 BMC、CA、Citrix、EMC、Emulex、F5、IBM、 微 软 、NetApp、RedHat、SAP、 赛 门 铁 
克 以 及 竞争 对 手 VMware。 


Insieme ACI 的 推出 说 明 思科 正在 认真 对 待 SDN 威 胁 ， 并 且 做 出 了 积极 的 响应 ， 按 照 钱 伯 斯 的 说 法 就 是 : “接受 SDN 理 念 ， 但 探讨 超越 目前 市 场 水 平 的 实现 方式 ”，“ACI 是 目前 实现 SND 的 最 佳 实践 
方案 ”。 有 思科 通 过 软 硬 结合 的 方式 实现 网 络 的 灵活 性 ， 同 时 保持 对 现 有 市 场 的 维护 ， 真 正 做 到 了 一 石 二 鸟 。 


2.VMware 


2012 年 7 月 ， 虚 拟 化 技术 和 云 基础 架构 厂商 VMware 以 10.5 亿 美元 现金 ， 收 购 软件 定义 网 络 (SDN) 先驱 者 、 开 源 政 策 网 络 虚拟 化 私人 控股 企业 Nicira， 以 扩大 网 络 虚 拟 化 产品 组 合 。 按 照 协 
议 ，VMware 还 将 承担 Nicira 已 确定 未 发 放 的 2.1 亿 美元 股票 奖励 。 


Nicira 近 来 成 为 网 络 行业 议论 最 多 的 新 创 公 司 之 一 ， 这 是 因为 该 公司 开发 的 技术 完全 改变 了 企业 建造 网 络 的 方式 。 其 对 网 络 的 用 途 如 同 VMware 软 件 对 服务 器 的 用 途 ， 使 用 的 是 “虚拟 化 ”技术 。Nicira 
开发 了 网 络 虚 拟 平台 (Network virtualization platform, NVP) ， 该 技术 被 描述 为 25 年 才 会 出 现 一 次 。 


VMware 通过 对 Nicira 的 收购 和 整合 ， 基 于 VMware ESX 的 虚拟 化 技术 ， 推 出 了 其 NSX 网 络 虚 拟 化 平台 ， 该 平台 号 称 网 络 版 的 VMware ESX。 在 VMworld2013 大 会 上 ，VMware 提 出 了 “DEFY 
CONVENTION (颠覆 传统 ) ”主题 ， 据 VMware 介绍 ， 其 不 仅仅 是 一 个 SDN 的 解决 方案 或 物 联 网 的 解决 方案 ， 而 是 利用 虚拟 化 技术 覆盖 整个 网 络 结构 的 平台 ， 并 利用 能 够 创建 一 个 资源 池 的 VMware ESX 
服务 器 虚拟 化 技术 ， 对 内 存 和 CPU 进行 虚拟 化 ， 动 态 分 配 资 源 ， 以 响应 用 户 请 求 。 另 外 ，VMware 的 NSX 物 理 交 换 机 和 路 由 器 ， 可 以 通过 负载 平衡 及 防火 墙 动态 分 配 虚 拟 化 之 后 的 网 络 资源 。 


VMware 的 SDN 和 网 络 虚拟 化 技术 紧密 集成 ， 它 具有 两 种 网 络 嗓 加 方案 VXLAN 和 STT，STT 只 能 用 于 虚拟 交换 机 ，NVP 3.2 版 本 中 已 经 能 够 同时 支持 两 种 协议 。 


VMware NSX 方 案 是 网 络 虚拟 化 和 软件 定义 网 络 的 结合 体 ， 它 同时 具有 网 络 虚拟 化 和 软件 定义 网 络 的 要 素 ， 理 论 上 ，VMware NSX 可 以 部 署 在 任何 Hypervisor 上 ， 不 过 目前 主要 还 是 应 用 在 VMware 自 
家 的 vSphere 上 。 


NSX 方 案 如 图 4-7 所 示 ， 其 虚拟 化 层 包 含 三 个 逻辑 平面 : 数据 层 (DATA 层 ) 、 控 制 层 (CONTROLE) 和 管理 层 (MGMT 层 ) 。 管 理 层 和 控制 层 对 应 ONF 架 构 中 的 控制 层 ， 通 过 北向 接口 向 应 用 程序 提 
供 API 进 行 编程 和 控制 ， 通 过 南 向 接口 控制 数据 层 ， 主 要 由 虚拟 交换 机 ， 比 如 传统 的 VDS 交 换 机 、 运 行 于 其 他 Hypervisor 的 Open vSwitch 交 换 机 以 及 NSX ESR (Edge Service Router) 路 由 器 等 构成 ， 其 
中 NSX ESR 路 由 器 提供 WAN/Internet 通 路 ， 数 据 层 受 到 控制 层 的 控制 器 集群 管理 ， 控 制 器 集群 受到 管理 层 的 NSX Manager 管 理 ，NSX Manager 还 可 以 集成 第 三 方 插件 以 实现 特定 功能 ，NSX Manager 
还 提供 NSX API 给 更 上 层 应 用 程序 调用 。 
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图 4-7 VMware NSX 架 构 


NSX 方 案 最 底层 的 虚拟 交换 机 居于 VXLAN 协 议 ， 在 VMware vCNS (VMware vCloud Networking and Security) 环境 中 ， 由 运行 在 ESXi 上 的 一 个 内 核 模块 VTEP (Virtual Tunnel End Point) 实现 
VXLAN 的 封装 和 解 封 。VTEP 维 护 一 张 映 射 表 ， 能 够 知道 目标 虚拟 机 所 在 的 EXSi 的 位 置 ，VTEP 会 自动 创建 VMkernel port 并 为 其 分 配 1P 地 址 与 物理 网 络 通信 。 


VMware NSX 方 案 为 VMware 布局 软件 定义 数据 中 心 黄 定 了 坚实 的 基础 ， 弥 补 了 其 在 计算 、 存 储 、 网 络 虚 拟 化 布局 的 最 后 一 块 缺口 ， 使 VMware 在 数据 中 心虚 拟 化 和 云 计算 管理 平台 的 领先 地 位 得 到 了 
进一步 的 加 强 。 


3Juniper (BEIS) 


2012 年 12 月 ，Juniper 公 司 宣 布 斥资 1.76 亿 美元 收购 了 主要 制造 SDN 控 制 器 的 初创 公司 Contrail Systems， 值 得 一 提 的 是 ， 这 是 一 家 正式 运 曹 两 天 就 被 收购 的 公司 。Juniper 对 Contrail 的 收购 兴趣 部 分 
源 于 其 是 思科 目前 最 大 的 竞争 对 手 ， 但 是 更 大 的 兴趣 来 自 于 对 SDN 市 场 的 布局 。 在 获得 了 Contrail SDN 控 制 器 后 ，Juniper 在 2013 初 宣布 了 其 SDN 战 略 ， 简 称 为 “六 四 一 ”策略 ， 即 六 个 原理 、 四 个 步骤 ， 
最 后 通过 一 个 软件 license 模 式 落 实 到 真正 的 软件 平台 上 。Juniper 的 六 个 原理 包括 : 


将 网 络 软件 清晰 地 划分 为 管理 、 服 务 、 控 制 和 推进 四 个 层次 一 一 提供 支撑 架构 来 实现 网 络 内 每 一 层 的 优化 。 
将 管理 、 服 务 和 控制 软件 的 相应 部 分 进行 集中 化 处 理 ， 以 简化 网 络 设计 并 降低 运营 成 本 。 

使 用 云 来 获得 弹性 扩展 和 灵活 部 署 ， 推 动 基于 使 用 的 定价 机 制 以 降低 维护 时 间 ， 并 将 成 本 与 价值 关联 。 
创建 一 个 平台 ， 用 于 网 络 应 用 、 服 务 以 及 与 管理 系统 的 整合 ， 推 动 新 的 业务 解决 方案 。 

:推动 协议 标准 化 ， 实 现 供应 商 之 间 的 互 操作 和 多 样 化 支持 ， 提 供 更 多 选择 并 降低 成 本 。 

- 将 SDN 原 则 广泛 应 用 于 所 有 的 网 络 和 网 络 服务 中 ， 包 括 网 络 安全 一 一 从 数据 中 心 、 企 业 园 区 到 服务 供应 商 使 用 的 移动 和 有 线 网 络 。 

四 个 步骤 包括 : 

. 第 一 步 ” 将 网 络 管理 、 分 析 、 和 设置 功能 集中 化 ， 通 过 总 体 控 制 来 设置 所 有 的 网 络 设备 。 

: 第 二 步 ” 建 立业 务虚 拟 机 (VM) ， 将 网 络 和 安全 业务 从 底层 硬件 中 抽取 出 来 。 

. 第 三 步 ” 采 用 集中 化 控制 器 ， 将 多 重 网 络 和 安全 业务 设备 进行 串联 。 

- 第 四 步 ” 优 化 网 络 使 用 和 安全 硬件 以 实现 更 高 性 能 


一 个 软件 就 是 Juniper 在 2013 年 9 月 推出 的 商业 版 本 SDN 控 制 器 Contrail 以 及 开源 版 本 的 Open Contrail, Juniper Contrail 的 SDN 方 案 也 是 采用 三 层 架 构 ， 采 用 三 层 层 革 网 络 方案 。 尽 管 同 样 基于 
L3Overlay 技 术 ，Juniper 提 供 的 SDN 方 案 在 数据 层 和 其 他 厂商 很 不 一 样 ， 它 采用 的 是 MPLS Over GRE， 除 了 支持 MPLS Over GRE 的 硬件 交换 机 之 外 ， 也 支持 虚拟 交换 机 。 目 前 ，Juniper 为 KVM 虚拟 化 平 
台 提 供 了 vSwitch， 针 对 其 他 Hypervisor 的 vSwitch 也 在 开发 中 。 


Juniper 的 Contrail 控 制 器 的 南 向 接口 和 其 他 厂商 很 不 一 样 ， 它 基于 独特 的 拓展 的 消息 和 展现 协议 (Extensible Messaging and Presence Protocol, XMPP) 。Juniper 通 过 XMPP 协 议 管理 各 种 
Juniper SDN 软 件 /硬件 网 络 基 础 设备 ， 包 括 交 换 机 和 路 由 器 等 。XMPP 是 一 种 通用 的 面向 消息 的 中 间 协 议 层 ， 本 来 是 为 即时 而 通信 开发 ，Juniper 已 向 ODL 组 织 提议 使 用 XMPP 作 为 南 向 APl， 这 样 可 以 避免 
绑 定 在 一 家 SDN 厂 商 上 。Juniper 同 时 也 支持 OpenFlow。 


Juniper 对 传统 交换 机 的 支持 ， 通 过 BGP 和 Netconf 协 议 实现 。 多 个 Juniper Contrail 控 制 器 之 间 通 过 BGP 协 议 互 相通 信 。 由 于 使 用 了 MPLS 和 GRE 两 种 通用 的 WAN 协 议 ，Juniper Contrail SDN 在 交换 
效率 和 跨越 WAN 部 署 上 具有 一 定 的 优势 。 


4.Brocade ( 博 科 网 络 ) 


作为 网 络 硬件 厂商 的 Brocade 主 要 提供 SDN 中 数据 层 的 设备 ，Brocade 的 SDN 方 案 称 为 虚拟 集群 交换 和 矩阵 (Virtual Cluster Switching Fabric, VCS Fabric) 。Brocade 是 ONF 和 ODL 的 成 员 ， 它 的 交 
换 机 主要 支持 南 向 协议 OpenFlow，Brocade 也 提供 了 三 层 层 革 网 络 协议 方案 ， 支 持 VXLAN 和 NVGRE 等 协议 。 


Brocade VCS Fabric 由 三 个 部 分 组 成 : 以 太 网 Fabric (Ethernet Fabric) 、 分 布 式 智能 (Distributed Intelligence) 和 逻辑 机 架 (Logical Chassis) 。 其 中 以 太 网 Fabric 可 以 看 做 一 种 网 络 虚 拟 化 产 
品 ， 它 将 传统 的 数据 中 心 的 三 层 架构 变 成 大 而 平 的 二 层 架构 ， 在 二 层 网 络 上 提供 了 Any-to-Any 特 性 ， 使 用 TRILL 和 1s-ls 协 议 ， 人 允许 建立 64 条 二 层 ECMP (Equal-Cost MultiPathing) 路 径 ， 为 二 层 网 络 提 
供 了 极为 强大 的 性 能 和 高 可 靠 性 ; 分 布 式 智能 化 以 太 网 Fabric 是 “自我 形成 ”的 ， 当 两 个 交换 机 与 博 科 VCS 连 接 ，Fabric 自 动 创建 ， 和 交换 机 共同 发 现 Fabric 配 置 的 ， 缩 放 Fabric 中 的 带宽 就 像 在 交换 机 之 间 
连接 另 一 个 链 路 ， 或 按 需 添加 一 个 新 交换 机 那样 简单 ;以 太 网 Fabric 交 换 机 表现 为 一 个 逻辑 的 机 架 ， 并 作为 一 台 交 换 机 管理 ， 而 不 是 对 单独 Fabric 中 的 每 个 交换 机 进行 管理 ， 就 好 像 它 是 在 一 个 机 箱 的 端口 
模块 ， 这 使 用 户 无 需 手 动 配置 结构 的 可 扩展 性 。 


Brocade VCS Fabric 的 另外 一 个 重要 特点 是 其 交换 机 /网 络 设备 的 端口 可 以 选择 为 SDN 模 式 或 者 传统 模式 ， 从 而 提供 一 种 迁移 到 SDN 之 前 的 混合 架构 。 
5.Big Switch 


Big Switch 是 成 立 于 2010 年 的 SDN 创 业 公 司 ， 它 的 创始 人 之 一 也 是 目前 公司 CEO 的 Guido Appenzeller 是 斯 坦 福 大 学 毕业 的 计算 机 科学 博士 ， 他 也 曾 在 斯 坦 福 大 学 工作 过 ， 主 要 负责 OpenFlow v1.0 及 
相关 交换 机 和 控制 器 的 开发 。 


Big Switch 提 出 了 Open SDN 的 架构 。 该 架构 主要 包括 了 三 个 层次 : 基于 标准 的 南 向 协议 、 开 放 的 核心 控制 器 及 北向 开放 的 API。 其 中 ， 架 构 的 核心 是 控制 器 Floodlight， 它 已 经 获得 了 广泛 的 认可 ， 拥 
有 业界 最 大 的 SDN 控 制 器 开发 社区 支持 。Floodlight 的 模块 化 结构 使 得 其 功能 易于 扩展 和 增强 ， 它 既 能 够 支持 以 Open vSwitch 为 代表 的 虚拟 交换 机 ， 又 能 够 支持 众多 OpenFlow 物 理 交换 机 ， 并 且 可 以 对 由 
OpenFlow 交 换 机 和 非 OpenFlow 交 换 机 组 成 的 混合 网 络 提供 支持 。 


Big Switch 除 了 控制 器 之 外 ， 还 提供 网 络 应 用 平台 Big Network Controller 及 运行 在 其 上 的 网 络 虚拟 化 应 用 Big Virtual Switch、 统 一 网 络 监控 应 用 Big Tap 等 产品 。 另 外 ，Big Switch 于 2013 年 3 月 推出 
了 交换 机 软件 平台 Switch Light， 能 够 便捷 地 为 物理 交换 机 和 虚拟 交换 机 提供 OpenFlow 支 持 。 


Big Switch 是 OpenDayLight 的 主要 发 起 者 之 一 ， 而 且 一 度 是 该 项 目的 铂金 成 员 。 但 是 ,项 目 运 行 了 还 不 到 3 个 月 时 间 ，Big Switch 就 退出 了 OpenDayLight， 主 要 原因 是 在 控制 器 代码 等 方面 和 思科 产 
生 了 严重 分 歧 。 这 一 情况 显示 出 新 兴 的 创业 公司 和 传统 的 产业 巨头 在 SDN 领 域 的 激烈 竞争 ， 同 时 也 使 得 OpenDaylight 项 目的 前 景 更 加 引 人 关 注 。 


6. 8 


谷歌 的 B4 网 络 是 目前 最 有 影响 的 利用 SDN 搭 建 的 商业 网 络 之 一 ， 在 2013 年 ONS 峰 会 上 ， 谷 歌 著名 工程 师 Amin Vahdat 发 表 了 题 为 “SDN 在 谷歌 怎么 做 ? ”的 演讲 。 他 分 享 了 谷歌 把 Quagga 开 源 软件 
和 OpenFlow 结 合 起 来 优化 数据 中 心 内 部 连接 以 及 在 自 有 数据 中 心 使 用 OpenFlow 的 细节 。 谷 歌 称 自己 的 SDN 网 络 为 B4。 


谷歌 的 网 络 分 为 数据 中 心 内 部 网 络 (IDC Network) 及 骨干 网 (Backbone Network， 也 可 以 称 为 WAN 网 ) 。WAN 网 按照 流量 方向 由 两 张 骨干 网 构成 ， 分 别 为 : 数据 中 心 之 间 互 联 的 网 络 (Inter-DC 
WAN,， 即 G-scale Network) ， 用 来 连接 谷歌 位 于 世界 各 地 之 间 的 数据 中 心 ， 属 于 内 部 网 络 ; 面向 Internet 用 户 访问 的 网 络 (Internet-facing WAN, Bpl-Scale Network) 。 谷 歌 选 择 使 用 SDN 来 改造 数 
据 中 心 之 间 互 联 的 WAN 网 ( 即 G-scale Network) ， 因 为 这 个 网 络 相对 简单 ， 设 备 类 型 及 功能 比较 单一 ， 而 且 WAN 网 链 路 成 本 高 晶 (比如 很 多 海底 光 编 ) ， 所 以 对 WAN 网 的 改造 无 论 建设 成 本 、 运 营 成 本 
收益 都 非常 显著 。 


谷歌 的 部 署 分 为 三 个 阶段 。 第 一 阶段 在 2010 年 春天 完成 ， 把 OpenFlow 交 换 机 引入 到 网 络 里 面 ， 但 这 时 OpenFlow 交 换 机 对 同 网 络 中 的 其 他 非 OpenFlow 设 备 表现 得 就 像 是 传统 交换 机 一 样 ， 只 是 网 络 
协议 都 是 在 控制 器 上 完成 。 第 二 阶段 是 到 2011 年 中 完成 ， 这 个 阶段 引入 更 多 流量 到 OpenFlow 网 络 中 ， 并 且 开 始 引 入 SDN 管 理 ， 让 网 络 开始 向 SDN 网 络 演变 。 第 三 个 阶段 在 2012 年 初 完 成 ， 整 个 B4 网 络 完 
全 切换 到 了 OpenFlow 网 络 ， 引 入 了 流量 工程 ， 靠 OpenFlow 规 划 流 量 路 径 ， 对 网 络 流量 进行 极 大 的 优化 。 


谷歌 的 B4 网 络 架构 如 图 4-8 所 示 ， 这 个 网 络 一 共 分 为 三 个 层次 ， 分 别 是 物理 设备 层 (Switch Hardware) 、 局 部 网 络 控制 层 (Site Controller) 和 全 局 控制 层 (Global) 。 一 个 Site 就 是 一 个 数据 中 心 。 
第 一 层 的 物理 交换 机 和 第 二 层 的 控制 器 在 每 个 数据 中 心 的 内 部 出 口 处 都 有 部 署 ， 而 第 三 层 的 SDN 网 关 和 TE 服务 器 则 是 在 一 个 全 局 统一 的 控制 层 。 
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图 4-8 ”谷歌 B4 网 络 架 构 


作为 ONF 官 网 上 仅 有 的 几 个 用 户 案例 之 一 ， 谷 歌 的 B4 网 络 对 SDN 的 推广 有 很 好 的 示范 作用 : 一 方面 证 明了 SDN 在 实际 应 用 中 带 来 的 巨大 价值 ， 据 谷歌 的 测试 ，SDN 部 署 后 ， 网 络 的 容错 能 力 、 网 络 带 
宽 利 用 率 及 网 络 的 管理 能 力 大 大 提高 ; 另 一 方面 ， 该 案例 为 其 他 用 户 部 署 SDN 提 供 了 很 好 的 借鉴 和 参考 作用 。 


作为 国内 和 世界 领先 的 信息 和 通信 和 解决 方案 供应 商 ， 华 为 同样 积极 参与 了 SDN 的 研究 和 开发 ， 并 且 在 2013 年 6 月 加 入 了 ODL 组 织 。 在 2013 年 3 月 举办 的 CeBIT 2013 (汉诺威 消费 电子 、 信 息 及 通信 博览 
X) 大 会 上 ， 华 为 发 布 了 其 在 企业 业务 领域 的 软件 定义 网 络 (SDN) 方案 。 这 是 继 2013 年 2 月 份 华为 面向 电信 运营 商 发 布 “SoftCOM”SDN 战 略 之 后 ， 再 次 阐释 其 在 企业 业务 领域 的 SDN 战 略 构 想 。 华 为 致 
力 于 以 “ 云 化 、 全 层次 开放 、 融 合演 进 以 及 简单 可 控 ” 为 核心 的 企业 SDN 战 略 ， 让 企业 用 户 的 1CT 基 础 设施 能 够 “ 随 您 所 愿 ”， 它 面向 运营 商 和 企业 分 别提 出 了 不 同 的 SDN 战 略 : 


(1) 面向 运营 商 的 SoftCOM 战 略 


SoftCOM 战 略 ， 致 力 于 帮助 运营 商 建 立 一 个 完整 系统 的 网 络 架 构 。 华 为 表示 相 比 传统 、 封 闭 、 复 杂 和 以 控制 为 主 的 通信 和 架构， 新 一 代 的 通信 和 网络 是 开放 、 简 单 和 以 使 能 为 主 的。 这 样 的 网 络 可 以 通过 将 
控制 平面 和 数据 平面 分 离 的 ;DN 技术 ， 诸 如 会 晤 边界 控制 器 SBC 等 网 络 元 素 的 虚拟 化 、 支 持 云 业 务 的 数据 中 心 内 的 OSS 和 BSS 功 能 、 大 规模 部 署 云 业 务 等 来 实现 。 


华为 表示 整个 网 络 分 布 式 的 云 /寄宿 (hostling) 体制 将 是 未 来 网 络 的 架构 。 这 些 技术 和 架构 将 会 最 小 化 运营 商 的 设备 投资 成 本 ， 降 低 网 络 运 营 复 杂 性 ， 提 高 网 络 效率 和 灵活 性 ， 大 大 加 快 新 业务 推出 的 
进度 。 


透 过 华为 提出 的 Carrier SDN 技 术 构 架 向 运营 商 的 SDN 构 想 如 下 : 

` 弹性 通过 设备 通用 化 、 处 理 资 源 池 化 、 功 能 多 样 性 、 网 络 可 编程 ， 构 建 婵 性 而 不 僵化 的 网 络 架 构 。 
C 简单 ”通过 转发 控制 分 离 、 网 络 虚 拟 化 ， 实 现 集中 管理 、 简 化 运 维 。 

. 敏捷 ”通过 端 到 端 网 络 资源 可 抽象 、 可 编程 ， 实 现 新 业务 发 放 简 单 、 快 捷 。 

“ 可 增值 ”通过 网 络 能 力 开放 ， 使 用 户 获 得 最 佳 的 网 络 应 用 体验 ， 实 现 网 络 能 力 的 再 增值 。 

(2) 面向 企业 的 SDN 方 案 


华为 期 望 在 企业 SDN 中 实现 数据 中 心 、 园 区 网 、 广 域 网 等 多 个 领域 的 端 到 端 融合 ;通过 对 物理 网 络 和 虚拟 网 络 的 融合 控制 和 管理 ， 实 现 智 能 和 敏捷 的 云 数据 中 心 。 同 时 ， 华 为 认为 从 现 有 网 络 到 未 来 
SDN 网 络 是 一 个 平滑 演进 的 改革 过 程 ， 而 不 是 一 场 全 新 的 革命 。 


SDN 对 外 呈现 的 能 力 是 开放 、 可 编程 ， 其 核心 支撑 技术 是 网 络 设备 的 软 硬 件 灵 活性 。 没 有 可 在 线 重 塑 的 软 硬 件 能 力 ， 就 无 法 充分 体现 网 络 对 外 的 开放 、 可 编程 价值 。 
从 近期 看 ， 在 当前 网 络 上 基于 软件 的 改造 可 以 适当 提供 可 编程 能 力 ; 从 长 远 看 ， 需 要 对 网 络 设备 更 彻底 的 改变 才能 发 挥 SDN 的 最 大 价值 ， 重 构 网 络 成 本 结构 。 


是 面向 运营 商 网 络 还 是 企业 网 络 的 SDN 方 案 ， 华 为 都 把 在 现 有 设备 上 提供 开放 、 可 编程 能 力作 为 主线 。 从 长 远 的 网 络 架构 的 规划 上 ， 华 为 SDN 将 如 何 走 我 们 拭目以待 ! 


4.2 SDN 的 技术 实现 


虽然 不 同 的 组 织 和 厂商 对 SDN 提 出 了 不 同 的 架构 和 解决 方案 ， 不 过 都 是 秉承 着 SDN 控 制 和 转发 分 离 ， 集 中 控制 的 核心 思想 。 和 总体 来 说 ， 目 前 SDN 的 实现 方案 主要 存在 两 种 : 一 种 强调 以 网 络 为 中 心 ， 主 
要 是 利用 标准 协议 OpenFlow 实 现 对 网 络 设备 的 控制 ， 可 以 看 成 是 对 传统 网 络 设备 (交换 机 、 路 由 器 等 ) 的 改造 和 升级 ; 另外 一 种 以 主机 为 中 心 ， 以 网 络 亚 加 技术 实现 网 络 虚 拟 化， 应 用 场 主要 是 数据 中 
心 。 


4.2.1 以 网 络 为 中 心 的 实现 


以 网 络 为 中 心 (Network Dominant) 的 SDN 的 技术 核心 是 OpenFlow 技 术 ，OpenFlow 技 术 最 早 由 斯 坦 福 大 学 于 2008 年 提出 ， 它 是 一 种 通信 协议 ， 用 来 提供 对 网 络 设备 诸如 交换 机 和 路 由 器 的 数据 转 
发 展 (Data Forwarding Plane) 的 访问 控制 。OpenFlow 和 旨 在 基于 现 有 的 TCP/IP 技 术 条 件 ， 以 创新 的 网 络 互联 理念 解决 当前 架构 在 面 对 新 的 网 络 业务 和 服务 时 所 遇 到 的 各 种 瓶颈 。 全 球 权威 科技 商业 杂志 
《MIT Technology Review》2009 年 将 基于 OpenFlow 的 SDN 技 术 评 为 当年 十 大 突破 性 技术 之 一 。 


OpenFlow 技 术 通过 将 网 络 设备 的 控制 层 (Control Plane) 与 数据 层 (Data Plane) 分 离开 来 ， 从 而 实现 对 网 络 流量 的 灵活 控制 ， 为 核心 网 络 及 应 用 创新 提供 良好 的 平台 。 它 的 核心 思想 很 简单 ， 就 是 
将 原本 完全 由 交换 机 /路 由 器 控制 的 数据 包 转 发 过 程 ， 转 化 为 由 控制 服务 器 (Controller) 和 OpenFlow 交 换 机 (OpenFlow Switch) 分 别 完成 的 独立 过 程 。 也 就 是 说 ， 使 用 OpenFlow 技 术 的 网 络 设备 能 
分 布 部 署 、 集 中 管控 ， 使 网 络 具有 软件 可 定义 的 形态 ， 对 其 进行 定制 、 快 速 建立 、 实 现 新 的 特征 和 功能 。ONF 创 立 董事 会 成 员 和 加 州 大 学 伯克利 分 校 的 Scott Shenker 教 授 对 此 有 很 中 肯 的 评 
it: “OpenFlow 并 不 能 让 你 做 以 前 在 网 络 上 不 能 做 的 事情 ， 但 它 提供 了 可 编程 接口 ， 使 你 可 以 编程 决定 要 在 网 络 上 发 生 的 事情 ， 如 何 对 数据 包 进 行路 由 、 如 何 实现 负载 均衡 以 及 如 何 进行 访问 控制 。 这 种 
通用 性 的 确 会 推动 发 展 。 


1.0penFlow 起 源 与 发 展 


OpenFlow 起 源 于 斯 坦 福 大 学 的 Clean slate 项 目 组 ， 其 最 终 目的 是 重新 构建 互联 网 ， 旨 在 改变 设计 已 显 不 合 时 宜 上 且 难 以 进化 发 展 的 现 有 网 络 基础 架构 。2006 年 ， 斯 坦 福 大 学 计算 机 科学 系 启动 了 一 个 关 
于 企业 网 络 管理 模型 和 安全 保证 的 项 目 Ethane。 该 项 目 试图 通过 一 个 集中 式 控制 器 ， 让 网 络 管理 员 使 用 简单 的 策略 语言 定义 基于 网 络 流 的 控制 策略 ， 并 将 这 些 策略 应 用 到 各 种 网 络 设备 中 。Nick McKeown 
教授 进一步 泛 化 Ethane 的 设计 ， 将 传统 网 络 设备 中 的 数据 转发 和 路 由 控制 两 个 功能 模块 分 离 ， 通 过 集中 式 控制 器 以 标准 化 接口 对 网 络 设备 进行 管理 和 配置 ， 从 而 为 网 络 资源 的 设计 、 管 理 和 使 用 提供 更 多 的 
可 能 性 与 灵活 性 ， 最 终 推 动 网 络 架构 的 革新 与 发 展 。 


项 目 组 在 ACM SIGCOMM 2008 年 会 议 上 发 表 论文 ， 首 次 提出 了 OpenFlow 的 概念 与 设计 。 在 文中 ， 作 者 指出 传统 网 络 中 的 网 络 设备 ， 诸 如 路 由 器 和 交换 机 ， 依 据 指定 的 转发 规则 进行 数据 包 的 交换 ， 
不 涉及 流 (Flow) 的 概念 。 而 使 用 OpenFlow 技 术 的 网 络 ， 数 据 包 在 网 络 中 的 传输 路 径 由 统一 的 控制 器 决定 。OpenFlow 交 换 机 会 在 本 地 维护 一 个 与 转发 表 不 同 的 流 表 (Flow Table) ， 如 果 要 转发 的 数据 
包 在 流 表 中 有 对 应 项 ， 则 直接 进行 快速 转发 ; 若 流 表 中 没有 此 项 ,数据 包 会 被 发 送 到 控制 器 进行 传输 路 径 的 识别 ， 新 的 规则 继而 被 写 入 交换 机 的 流 表 之 中 。 


除了 前 述 OpenFlow 的 工作 原理 之 外 ， 文 中 还 列举 了 OpenFlow 的 应 用 场景 ， 诸 如 校园 网 络 中 对 实验 性 通信 协议 的 支持 ; 网 络 管理 和 访问 控制 ， 网 络 隔离 ; 无 线 网 络 中 的 移动 VOIP 客户 ;对 非 IP 网 络 的 
支持 ; 基于 网 络 包 的 处 理 。 当 然 ， 目 前 关于 OpenFlow 的 研究 和 应 用 已 远 远 超出 了 这 些 领域 。 


OpenFlow 技 术 的 提出 对 网 络 的 创新 和 发 展 起 到 了 巨大 的 推动 作用 ， 也 得 到 了 广泛 的 关注 和 支持 。 由 美国 国家 科学 基金 会 (NSF) 支持 的 Global Environment for Network Investigations (GENI) 
项 目 同 年 对 GENI Enterprise 项 目 进 行 了 资金 支持 ， 该 项 目 成 功 展示 了 如 何在 商用 交换 机 和 路 由 器 上 运行 OpenFlow 协 议 。 基 于 OpenFlow 所 带 来 的 网 络 可 编程 的 特性 ，OpenFlow 技 术 研究 团队 进一步 提出 
了 “软件 定义 网 络 ” (Software-Defined Networking, SDN) 的 概念 。 


2009 年 12 月 ， 具 有 里 程 碑 意 义 的 可 用 于 商业 化 产品 的 OpenFlow 交 换 机 规范 1.0 版 本 发 布 ， 主 要 描述 了 控制 器 和 交换 机 之 间 交 互信 息 的 协议 标准 ， 以 及 控制 器 和 交换 机 的 接口 标准 。2011 年 2 月 发 布 规范 
的 1.1 版 本 (由 ONF 发 布 ， 包 括 后 续 版 本 ) ， 同 年 12 月 发 布 1.2 版 本 。2012 年 6 月 发 布 1.3 版 本 ， 并 在 2012 年 9 月 、2013 年 4 月 和 12 月 先后 发 布 1.3 的 改进 版 本 以 及 基于 1.3 版 本 的 OpenFlow 扩 展 包 。2013 年 10 
月 发 布 1.4 版 本 。1.5 版 本 也 已 经 接近 完成 。 


ONF 基 金 会 除了 发 布 OpenFlow 交 换 机 规范 ， 还 发 布 了 OpenFlow 配 置 和 管理 协议 (OF-Config，2013 年 3 月 发 布 1.1.1 版 本 ) 。 该 协议 描述 了 在 包含 OpenFlow 交 换 机 的 网 络 环境 中 ， 除 OpenFlow 协 
议 之 外 的 接口 规范 和 配置 协议 规范 。2012 年 4 月 发 布 SDN 白 皮 书 ， 提 出 了 三 层 模 型 的 DN 架构 ， 定 义 了 基于 OpenFlow 的 SDN。2012 年 基金 会 建立 了 首 个 美国 一 致 性 测试 实验 室 (Conformance Testing 
Lab) ，2013 年 在 中 国 建立 了 首 个 国际 认证 测试 实验 室 。 截 至 2012 年 ，ONF 成 员 公 司 也 已 经 向 市 场 推 出 了 64 款 支持 OpenFlow 协 议 的 网 络 产 品 。 


2012 年 举办 的 第 二 届 Open Networking Summit 会 议 上 ， 谷 歌 在 主题 演讲 中 指出 OpenFlow 帮 助 他 们 改善 了 骨干 网 性 能 ， 降 低 了 骨干 网 的 复杂 性 和 成 本 ， 并 宣布 已 经 在 其 全 球 各 地 的 数据 中 心 骨 干 网 
络 中 大 规模 使 用 DpenFlow 和 SDN 技 术 ， 从 而 证 明 OpenFlow 不 再 仅仅 停留 在 学 术 领 域 的 研究 模型 ， 而 已 经 具备 了 在 商业 环境 中 部 署 的 技术 成 熟 度 。 之 后 ，Facebook 也 宣布 其 数据 中 心中 使 用 了 
OpenFlow/SDN 的 技术 。 


2.0penFlow 技 术 原 理 


斯 坦 福 大 学 Nick McKeown 教 授 等 人 在 ACM SIGCOMM 2008 年 会 议 上 发 表 的 论文 《OpenFlow: Enabling Innovation in Campus Networks》 是 了 解 OpenFlow 技 术 原理 的 首选 读物 。 由 ONF 不 断 
修订 推出 的 OpenFlow 交 换 机 规范 中 则 定义 了 OpenFlow 交 换 机 作为 转发 设备 所 具有 的 基本 组 件 与 功能 要 求 ， 以 及 OpenFlow 控 制 器 用 来 与 交换 机 进行 交互 的 通信 协议 。 因 此 我 们 将 结合 这 篇 论文 与 
OpenFlow 交 换 机 规范 ， 对 其 技术 原理 进行 详细 阐述 。 
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OpenFlow 论 文 的 初衷 主要 是 针对 重新 设计 校园 互联 网 的 实验 环境 问题 。 在 单纯 的 实验 网 上 总 是 难以 有 足够 多 的 实际 用 户 数 或 者 足够 复杂 的 网 络 拓扑 来 测试 新 协议 的 性 能 和 功能 ， 方 法 之 一 是 将 运行 新 
架构 新 协议 的 实验 网 络 谋 入 到 实际 运营 的 网 络 中 ， 利 用 真实 的 网 络 环境 验证 新 协议 的 可 行 性 和 存在 的 问题 。 因 而 科研 人 员 提 出 了 OpenFlow 中 控制 层 与 转发 层 相互 分 离 的 架构 ， 将 控制 逻辑 从 网 络 设备 中 抽 
象 出 来 ， 研 究 者 可 以 通过 对 其 编程 实现 新 的 网 络 协 议和 拓扑 架构 而 无 需 改动 网 络 设备 本 身 。 


OpenFlow 技 术 基 本 架构 主要 包括 OpenFlow 交 换 机 、 控 制 器 ， 以 及 交换 机 与 控制 器 之 间 进 行 交互 的 通信 信道 ， 如 图 4-9 所 示 。OpenFlow 交 换 机 根据 流 表 对 数据 包 进行 转 发 ， 对 应 数据 转发 层 ;， 控 制 器 
负责 流转 发 规则 的 生成 与 删除 ， 对 应 控制 层 。 控 制 器 通过 OpenFlow 协 议 接口 对 交换 机 中 的 单个 或 多 个 ) 流 表 进行 控制 ， 从 而 实现 对 整个 网 络 在 逻辑 上 的 集中 式 控制 。 


1) OpenFlow 端 口 是 OpenFlow 处 理 进程 和 网 络 的 其 余部 分 之 间 传 递 数据 包 的 网 络 接口 。OpenFlow 交 换 机 之 间 通 过 OpenFlow 端 口 在 逻辑 上 相互 连接 。OpenFlow 的 端口 组 可 能 与 交换 机 硬件 中 提供 
的 网 络 端口 不 完全 相同 ， 因 为 有 些 硬件 网 络 接口 可 能 被 OpenFlow 禁 用 ，OpenFlow 交 换 机 也 可 以 定义 额外 的 端口 。 


OpenFlow 的 数据 包 从 入 端口 接收 ， 经 过 OpenFlow 的 流水 线 处 理 ， 可 将 它们 转发 到 一 个 出 端口 。 入 口 端 口 是 数据 包 的 属性 ， 它 贯穿 了 整个 OpenFlow 流 水 线 ， 并 代表 数据 包 是 从 哪个 DpenFlow 交 换 机 
的 端口 上 接收 的 。 匹 配 报 文 的 时 候 会 用 到 入 端口 。OpenFlow 流 水 线 可 以 决定 数据 包 通 过 输出 行动 发 送 到 出 端口 ， 它 定义 了 数据 包 怎 样 传 回 到 网 络 中 。 


OpenFlow 交 换 机 必须 支持 三 种 类 型 的 OpenFlow 的 端口 : 物理 端口 、 逻 辑 端口 和 保留 端口 。 
` 物理 端口 ， 即 设备 上 物理 可 见 的 端口 。 
. 逻辑 端口 ， 在 物理 端口 基础 上 由 交换 机 抽象 出 来 的 遇 辑 端口 ， 如 为 tunnel 或 者 聚合 等 功能 而 实现 的 逻辑 端口 。 


. 保留 端口 。OpenFlow 目 前 总 共 定 义 了 ALL、CONTROLLER、TABLE、IN_PORT、ANY、LOCAL、NORMAL 和 FLOOD 8 种 端口 ， 其 中 后 3 种 为 非 必 需 的 端口 ， 只 在 混合 型 的 OpenFlow 


Switch (OpenFlow-hybrid Switch， 即 同时 支持 传统 网 络 协议 栈 和 OpenFlow 协 议 的 Switch 设备 ， 相 对 于 OpenFlow-only Switch 而 言 ) 中 存在 。 


2) 如 图 4-10 所 示 ，OpenFlow 人 交换 机 在 本 地 拥有 一 个 或 多 个 流 表 (Flow Table) 和 一 个 组 表 (Group Table) 执行 分 组 查找 和 转发 。 每 个 流 表 中 都 包含 多 个 流 表 项 ， 每 个 流 表 项 中 包含 : 
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图 4-9 OpenFlow Switch 基本 架构 


OpenFlow: 


图 4-10 OpenFlow X Jd. 

: 匹配 字段 ”对 数据 包 进 行 匹配 。 包 括 入 端口 〈Ingress Port) 、 数 据 包 报头 以 及 由 前 一 个 表 指 定 的 可 选 的 元 数据 。 
. 优先 级 ” 流 表 项 的 匹配 优先 顺序 。 

“ 计数 器 ”更 新 匹配 数据 包 的 计数 。 


. 指令 ”修改 动作 集 或 流水 线 处 理 。 


“超时 最 大 时 间 计 数 或 流 的 超时 时 间 。 
‘Cookie 由 控制 器 选择 的 不 透明 数据 值 。 可 由 控制 器 用 来 过 滤 流 统计 信息 、 流 更 改 或 者 流 删 除 ， 处 理 数 据 包 时 并 不 使 用 该 值 。 


当 接 收 到 数据 包 后 ， 交 换 机 开始 在 第 一 个 流 表 中 执行 查找 ， 而 且 基 于 流水 线 处 理 ， 也 会 在 其 他 流 表 中 进行 查找 。 数 据 匹 配 字段 从 数据 包 中 提取 ， 用 来 执行 查找 操作 的 数据 匹配 字段 取决 于 数据 包 类 型 ， 
常 包括 数据 包 的 报头 信息 ， 例 如 以 太 网 源 地 址 或 1P 目 的 地 址 。 除 了 报头 数据 ， 也 可 以 对 入 端口 和 元 数据 执行 匹配 操作 。 元 数据 可 以 用 来 在 交换 机 内 的 流 表 之 间 传 递 信息 。 匹 配 字段 表示 数据 包 的 当前 状 
， 如 果 在 前 一 个 流 表 中 使 用 Apply-Actions 改 变 了 数据 包 的 报头 ， 那 么 这 些 变化 也 会 反映 在 匹配 字段 中 。 如 果 数 据 包 的 匹配 字段 与 流 表 项 中 的 定义 相 匹 配 ， 则 数据 包 匹 配 该 流 表 项 。 如 果 流 表 项 字段 的 值 定 
义 为 ANY， 则 将 匹配 数据 包 报头 中 的 任意 值 。 如 果 交 换 机 支持 指定 字段 上 的 任意 位 掩 码 ， 这 些 掩 码 就 可 以 更 精确 地 指定 匹配 。 数 据 包 与 流 表 进行 匹配 ， 只 有 有 具有 最 高 优先 级 的 匹配 流 表 项 能 够 而 且 必 须 被 选 
择 ， 与 之 相关 联 的 计数 器 将 被 更 新 ， 该 流 表 项 中 定义 的 指令 集 也 将 被 执行 。 首 先 在 本 地 的 流 表 上 进行 匹配 查找 转发 目标 端口 。 如 果 在 流 表 中 有 对 应 项 ， 则 直接 进行 快速 转发 ， 如果 未 发 现 匹 配 ， 则 把 数据 包 
信息 转发 给 控制 器 ， 由 控制 层 生 成 新 的 转发 规则 ， 并 更 新 交换 机 中 的 流 表 ， 转 发 数据 包 。 
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每 一 个 流 表 必须 支持 能 处 理 table-miss 的 流 表 项 。table-miss 表 项 指定 在 流 表 中 如 何 处 理 与 其 他 流 表 项 未 匹配 的 数据 包 。 比 如 数据 包 发 送 到 控制 器 ， 丢 弃 数 据 包 或 直接 将 包 扔 到 后 续 的 表 。 


DI" 


在 一 条 流 表 项 中 ， 可 以 根据 网 络 包 在 L2、L3 或 者 L4 等 网 络 报 文 头 的 任意 字段 进行 匹配 ， 比 如 以 太 网 帧 的 源 MAC 地 址 、IP 包 的 协议 类 型 和 iP 地 址 、TCP/UDP 的 端口 号 等 。 


所 有 OpenFlow 的 规则 都 被 组 织 在 不 同 的 FlowTable 中 ， 在 同一 个 FlowTable 中 按 规则 的 优先 级 进行 先后 匹配 。 一 个 OpenFlow 的 交换 机 可 以 包含 一 个 或 者 多 个 FlowTable， 从 0 依次 编号 排列 。 
OpenFlow 规 范 中 定义 了 流水 线 式 的 处 理 流程 ， 如 图 4-11 所 示 ， 当 数据 包 进 入 交换 机 后 ， 必 须 从 FlowTable 0 开始 依次 匹配 ; FlowTable 可 以 按 次 序 从 小 到 大 越级 跳 转 ， 但 不 能 从 某 一 FlowTable 向 前 跳 转 至 
编号 更 小 的 FlowTable。 当 数据 包 成 功 匹 配 一 条 规则 后 ， 将 首先 更 新 该 规则 对 应 的 统计 数据 (如 成 功 匹 配 数据 包 总 数目 和 总 字 节 数 等 ) ， 然 后 根据 规则 中 的 指令 进行 相应 操作 ， 比 如 跳 转 至 后 续 某 一 
FlowTable 继 续 处 理 ， 修 改 或 者 立即 执行 该 数据 包 对 应 的 Action Set 等 。 当 数据 包 已 经 处 于 最 后 一 个 FlowTable 时 ， 其 对 应 的 Action Set 中 的 所 有 Action 将 被 执行 ， 包 括 转 发 至 某 一 端口 、 修 改 数据 包 某 一 字 
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图 4-11 OpenFlow 规 范 定义 的 处 理 流程 


流 表 项 可 以 通过 两 种 方式 从 流 表 中 删除 ， 控 制 器 的 请 求 或 交换 机 流 超时 机 制 。 交 换 机 流 超 时 机 制 运行 基于 相关 的 控制 器 和 流 表 项 的 状态 和 配置 。 每 个 流 的 表 项 具有 一 个 和 它 相 关 的 idle_timeout 和 
hard timeout 值 。 如 果 给 定 非 零 hard timeout 的 值 ， 那 么 一 段 时 间 后 ， 可 以 导致 流 表 项 被 删除 ， 无 论 有 多 少数 据 包 与 之 匹配 ; 如 果 给 定 非 零 idle_timeout 的 值 ， 那 么 如 果 在 一 段 时 间 没 有 报 文 与 之 匹配 ， 可 
以 导致 流 表 项 被 删除 。 该 控制 器 可 积极 地 从 流 表 中 通过 发 送 流 表 修 改 信息 删除 流 表 项 。 


3) 组 表 (Group Table) 由 组 表 项 组 成 ， 指 向 一 个 组 表 的 流 表 项 使 得 OpenFlow 能 够 表示 额外 的 转发 方法 。 每 个 组 表 项 由 组 编号 来 识别 ， 包 括 : 
- 组 编号 ”用 来 识别 组 的 32 位 无 符号 整数 。 

“ 组 类 型 ”确定 组 语义 。 

“ 计数 器 ” 当 报 文 被 组 表 项 处 理 时 更 新 数据 。 

* 动作 存储 段 ”一 系列 有 序 的 动作 存储 段 ， 每 个 存储 段 包 含 了 一 套 要 执行 的 动作 及 相关 参数 。 


4) OpenFlow 通 道 是 每 个 OpenFlow 交 换 机 连接 控制 器 的 接口 。 通 过 这 个 接口 ， 控 制 器 对 交换 机 进行 配置 和 管理 ， 接 收 来 自 交换 机 的 事件 ， 并 且 向 交换 机 发 送 数 据 包 ，。 


数据 通路 与 OpenFlow 通 道 之 间 的 接口 是 面向 特定 实现 方式 的 ， 所 有 的 OpenFlow 通 道 信息 的 格式 都 必须 符合 OpenFlow 协 议 。 
OpenFlow 协 议 支持 三 种 消息 类 型 : controller-to-switch, asynchronous (RÆ) 和 symmetric (对 称 ) ， 每 种 类 型 又 包括 若干 种 子 类 型 。 


: Controller/Switch 消 息 ， 是 指 由 控制 器 发 起 、 交 换 机 接收 并 处 理 的 消息 ， 主 要 包括 Features、Configuration、Modify-State、Read-State、 Packet-out、Battrier 和 Role-Request 等 。 这 些 消息 主要 由 控制 器 用 来 对 


交换 机 进行 状态 查询 和 修改 配置 等 操作 。 


- 异步 (Asynchronous) 消息 ， 是 由 交换 机 发 送 给 控制 器 、 用 来 通知 交换 机 上 发 生 的 某 些 异 步 事件 的 消息 ， 主 要 包括 Packet-in、Flow-Removed、Pott-status 和 Ettot 等 。 例 如 ， 当 某 一 条 规则 因为 超时 而 被 


删除 时 ， 交 换 机 将 自动 发 送 一 条 Flow-Removed 消 息 通 知 控制 器 ， 以 方便 控制 器 作出 相应 的 操作 ， 如 重新 设置 相关 规则 等 。 
“AK (Symmetric) 消息 ， 顾 名 思 义 ， 这 些 都 是 双向 对 称 的 消息 ， 主 要 用 来 建立 连接 、 检 测 对 方 是 否 在 线 等 ， 包 括 Hello、Echo 和 Experimenter 三 种 。 


交换 机 可 以 与 一 个 或 者 多 个 控制 器 建立 通信 。 多 控制 器 可 以 提高 可 靠 性 ， 当 某 个 控制 器 故障 或 者 与 控制 器 的 连接 中 断 时 ， 交 换 机 可 以 继续 在 OpenFlow 模 式 下 工作 。 多 控制 器 通过 此 规范 外 的 机 制 协 调 
控制 交换 机 。 


在 OpenFlow 规 范 的 最 后 一 部 分 ， 主 要 详细 定义 了 各 种 OpenFlow 消 息 的 数据 结构 ， 包 括 OpenFlow 消 息 的 消息 头等 。 


3.OpenFlow 交 换 机 规范 1.4 版 本 的 主要 变化 
1) OpenFlow 交 换 机 规范 1.4 版 本 的 变化 主要 集中 在 控制 屋 ， 对 数据 转发 层 的 更 改 很 少 。 


在 控制 器 主动 删除 和 交换 机 老化 的 基础 上 ， 增 加 了 第 三 种 flow entry 删 除 机 制 flow eviction。 这 种 机 制 是 由 控制 器 进行 使 能 ， 但 是 由 交换 机 自行 决定 如 何 触发 eviction 的 。 它 是 用 于 交换 机 内 部 的 一 些 机 
制 ， 举 个 例子 就 是 如 果 流 表 满 了 ， 交 换 机 可 以 自行 决定 把 一 些 不 重要 的 或 者 已 经 创建 很 久 的 flow 删 除 ， 为 新 的 flow 腾 出 空间 。 


规范 增加 了 一 种 synchronized table 机 制 ， 也 就 是 说 一 张 表 里 面 的 flow entry 可 以 从 另外 一 张 表 复制 过 来 ， 即 这 两 张 表 的 flow entry 的 match key 完 全 一 致 ， 但 是 action 可 以 另外 定义 。 比 如 两 个 典型 的 
应 用 例子 : Mac Learning/Forwarding 以 及 Unicast RPF Check/Forwarding。 因 为 在 传统 交换 机 中 Mac learning table 和 Mac forwarding table 逻 辑 上 是 两 张 表 ， 但 是 具体 的 芯片 实现 中 不 可 能 用 两 张 
表 ， 因 为 两 张 逻 辑 表 的 match key 是 完全 一 致 的 (Mac+vlan) ， 只 是 action 不 同 (一 张 是 用 于 学 习 ， 一 张 是 用 于 转发 ) ， 所 以 忌 片 做 法 都 是 用 同一 张 表 定义 出 两 组 不 同 的 action。Unicast Forwarding 和 
Unicast RPF Check 也 是 一 样 。 

增加 Bundling 消 息 有 两 个 目的 ， 一 个 是 有 时 候 多 个 消息 原则 上 应 该 是 原子 操作 ， 如 果 分 开 下 发 的 话 ， 万 一 有 一 个 失败 了 ， 之 前 成 功 的 消息 不 好 回 退 ; 另外 一 个 目的 是 如 果 控 制 器 要 同时 给 多 个 交换 机 下 
发 消息 ， 如 果 有 的 交换 机 失败 了 ， 它 可 以 要 求 所 有 的 交换 机 都 回 退 ， 保 证 交换 机 之 间 消 息 的 一 致 。 增 加 了 更 多 Port 属 性 的 描述 。 

细 化 了 对 experimenter 消 息 的 解释 说 明 。 这 个 消息 允许 厂家 在 OpenFlow 架 构 之 内 定义 私有 扩展 ， 比 如 用 户 需 要 某 个 操作 ， 但 是 该 操作 在 当前 OF spec 里 面 尚 未 定义 ， 那 么 厂家 可 以 用 这 个 消息 进行 私 
有 扩展 。 


增加 了 flow monitor 功 能 。 这 个 功能 可 以 让 交换 机 在 flow table 发 生变 化 的 时 候 通 知 控制 器 ， 它 也 有 两 个 作用 。 一 个 是 交换 机 的 某 些 主动 变化 ， 可 以 主动 通知 控制 器 ， 让 控制 器 知晓 。 另 外 一 个 更 重要 
的 目的 是 在 有 多 个 控制 器 的 时 候 ， 某 个 控制 器 发 过 来 的 指令 (比如 add/remove/update flow entry) ， 可 以 通过 flow monitor 功 能 ， 让 交换 机 主动 通知 到 其 他 的 控制 器 。 


另外 还 有 一 些 其 他 功能 的 变化 ， 诸 如 控制 平面 消息 的 扩展 、 增 强 和 细 化 说 明 等 。 


2) 在 ONF 制 定 的 SDN 标 准 体系 中 ， 除 了 OpenFlow 交 换 机 规范 之 外 ，OpenFlow 配 置 与 管理 协议 (OpenFlow Configuration and Management Protocol, OF-Config) 也 需要 被 关注 。OF-Config 
是 ONF 提 出 的 SDN 架 构 实现 中 的 重要 技术 ， 与 OpenFlow 之 间 存 在 密切 的 关系 。 


OpenFlow 定 义 的 是 SDN 网 络 架构 中 的 一 种 南 向 接口 ， 提 出 了 由 控制 器 向 OpenFlow 交 换 机 发 送 流 表 以 控制 数据 流通 过 网 络 所 经 过 路 径 的 方式 ， 但 是 并 未 规定 怎样 配置 和 管理 这 些 网 络 设备 ， 而 OF- 
Config 就 是 为 解决 这 一 问题 而 提出 的 ， 其 发 展 过 程 如 图 4-12 所 示 。 
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图 4-12 OF-Config 规 范 发 展 过 程 


OF-Config 的 本 质 是 提供 一 个 开放 接口 用 于 远程 配置 和 控制 OpenFlow 交 换 机 ， 但 是 它 并 不 会 影响 到 流 表 的 内 容 和 数据 转发 行为 ， 对 实时 性 也 没有 太 高 的 要 求 。 具 体 地 说 ， 诸 如 构建 流 表 和 确定 数据 流 
走向 等 事项 将 由 OpenFlow 规 范 进行 规定 ， 而 诸如 如 何在 OpenFlow 交 换 机 上 配置 控制 器 IP 地 址 、 如 何 对 交换 机 的 各 个 端口 进行 enable/disable 操 作 则 由 OF-Config 协 议 完成 。 


OpenFlow 交 换 机 上 所 有 参与 数据 转发 的 软 硬 件 (例如 端口 、 队 列 等 ) 都 可 被 视 为 网 络 资源 ， 而 OF-Config 的 作用 就 是 对 这 些 资源 进行 管理 。OF-Config 与 OpenFlow 的 关系 如 图 4-13 所 示 。 
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OF-Config 在 OpenFlow 架 构 上 增加 了 一 个 称 作 OpenFlow Configuration Point 的 配置 节点 ， 这 个 节点 既 可 以 是 控制 器 上 的 一 个 软件 进程 ， 也 可 以 是 传统 的 网 管 设备 ， 它 通过 OF-Config 协 议 对 
OpenFlow 交 换 机 进行 管理 ， 因 此 OF-Config 协 议 也 是 一 种 南 向 接口 。 


4.0penFlow 的 应 用 


随 着 OpenFlow 概 念 的 发 展 和 推广 ， 其 研究 和 应 用 领域 也 得 到 了 不 断 拓展 。 目 前 ， 关 于 OpenFlow 的 研究 领域 主要 包括 网 络 虚 拟 化 、 数 据 中 心 网 络 、 安 全 和 访问 控制 及 负载 均衡 等 方面 。 另 外 ， 还 有 关 
于 其 和 传统 网 络 设备 交互 和 整合 等 方面 的 研究 。 


1) 网 络 虚 拟 化 。 网 络 虚 拟 化 的 本 质 是 要 能 够 抽象 底层 网 络 的 物理 拓扑 ， 能 够 在 逻辑 上 对 网 络 资源 进行 分 片 或 者 整合 ， 从 而 满足 各 种 应 用 对 于 网 络 的 不 同 需求 。FlowVisor 是 建立 在 OpenFlow 之 上 的 网 
络 虚 拟 化 平台 ， 主 要 是 作为 OpenFlow 交 换 机 网 络 和 其 他 标准 OpenFlow 控 制 器 之 间 的 透明 代理 。FlowVisor 网 络 的 基本 要 素 是 网 络 切片 ， 它 由 一 组 文本 配置 文件 定义 ， 包 含 控制 各 种 网 络 活动 的 规则 例如 允 
许 、 只 读 和 拒绝 ， 其 范围 包括 流量 的 来 源 I|P 地 址 、 端 口号 或 者 数据 包 表 头 信息 。 网 络 管理 员 可 以 动态 地 重新 分 配 和 管理 切片 资源 ， 并 保证 切片 之 间 的 互相 隔离 。 


2) 在 数据 中 心 网 络 中 的 应 用 。 在 数据 中 心 网 络 中 使 用 OpenFlow 交 换 机 ， 可 以 使 得 网 络 和 计算 资源 更 加 紧密 地 联系 起 来 并 实现 有 效 的 控制 。 数 据 中 心 的 数据 流量 很 大 ， 如 果 不 能 合理 分 配 传 输 路 径 很 
易 造 成 数据 拥塞 ， 从 而 影响 数据 中 心 的 高 效 运行 。 若 在 数据 中 心 网 络 中 添加 OpenFlow 交 换 机 ， 则 可 以 实现 路 径 优 化 以 及 负载 均衡 ， 从 而 使 得 数据 交换 更 加 迅速 。 


3) 网 络 管理 和 安全 控制 。 如 果 网 络 是 基于 OpenFlow 技 术 实现 的 ， 则 经 过 OpenFlow 交 换 机 的 每 个 新 的 数据 流 都 必须 由 控制 器 做 出 转发 决定 。 在 控制 器 中 可 以 对 这 些 流 按 照 预先 制定 的 规则 进行 检查 
然后 由 控制 器 指定 数据 流 的 传输 路 径 以 及 流 的 处 理 策 略 ， 从 而 更 好 地 控制 网 络 。 更 为 重要 的 是 ， 在 内 网 和 外 网 的 连接 处 应 用 OpenFlow 交 换 机 可 以 通过 更 改 数据 流 路 径 以 及 拒绝 某 些 数据 流 增 强 企业 内 网 的 
安全 性 。 


4) 负载 均衡 。 传 统 负载 均衡 方案 一 般 需 要 人 在 服 务 器 集群 的 入 口 处 ， 通 过 网 天 或 者 路 由 器 来 监测 、 统 计 服 务 器 工作 负载 ， 并 据 此 动态 分 配 用 户 请 求 到 负载 相对 较 轻 的 服务 器 上 。 既 然 所 有 的 网 络 设备 都 可 
以 通过 OpenFlow 控 制 器 进行 集中 式 控 制 与 管理 ， 同 时 应 用 服务 器 的 负载 也 可 以 及 时 反馈 给 控制 器 ， 那 么 就 可 以 利用 OpenFlow 控 制 器 实现 智能 网 络 负载 均衡 。 根 据 实时 负载 信息 ， 重 新 定义 网 络 设备 中 流 
量 的 转发 路 径 与 转发 方式 ， 从 而 在 不 修改 已 有 网 络 配置 的 前 提 下 ， 优 化 现 有 网 络 架 构 的 性 能 。 


5. 基 于 OpenFlow 技 术 的 SDN 架 构 


传统 网 络 架构 中 ， 控 制 与 特定 的 网 络 设备 紧密 结合 在 一 起 。 而 在 SDN 架 构 中 ， 网 络 控制 从 数据 转发 中 解 耦 ， 从 而 具有 可 直接 编程 的 特性 。 逻 辑 上 的 集中 式 网 络 智能 和 状态 完成 了 控制 功能 的 迁移 ， 将 基 
础 网 络 架构 从 网 络 应 用 和 服务 中 抽象 出 来 ， 从 而 使 得 应 用 和 服务 可 以 将 网 络 看 作 一 个 逻辑 或 者 虚拟 实体 。 


SDN 架 构 按照 逻辑 功能 来 区 分 ， 主 要 包括 基础 设施 层 、 控 制 层 和 应 用 层 ， 如 图 4-14 所 示 。 基 础 设施 层 代表 网 络 的 底层 转发 设备 ， 包 含 了 特定 的 转发 面 抽象 。 控 制 层 集中 维护 网 络 状态 ， 并 通过 南 向 接口 
(控制 和 数据 层 接口 ， 如 OpenFlow) 获取 底层 网 络 设备 信息 ， 同 时 为 应 用 层 中 的 各 种 商业 应 用 提供 可 扩展 的 北向 接口 。 目 前 ，ONF 仍 在 不 断 修 订 完 善 南 向 接口 DpenFlow 协 议 ， 面 向 应 用 的 可 编程 北向 接 
口 仍 处 在 需求 讨论 阶段 。 
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图 4-14 基于 OpenFlow 的 SDN 架 构 


网 络 智能 在 逻辑 上 被 集中 在 基于 软件 方式 的 SDN 控 制 器 中 ， 它 维护 着 网 络 的 全 局 视图 。 因 此 ， 对 于 应 用 来 说 ， 网 络 就 类 似 于 一 个 单一 的 、 逻 辑 上 的 交换 机 。 利 用 3DN ， 企 业 和 运 曹 商 能 够 从 一 个 单一 的 
逻辑 节点 获得 独立 于 设备 供应 商 的 对 整个 网 络 的 控制 ， 从 而 大 大 简化 网 络 设计 和 操作 。 由 于 不 再 需要 理解 和 处 理 各 种 不 同 的 协议 标准 ， 而 只 是 单纯 地 接收 来 自 ?DN 控 制 器 的 指令 ， 网 络 设备 自身 也 同时 能 
得 到 极 大 的 简化 。 


可 能 最 重要 的 是 ， 网 络 管理 员 能 够 以 编程 方式 配置 网 络 抽象 ， 而 不 用 通过 输入 成 干 上 万 行 的 代码 配置 数目 众多 的 分 散 的 网 络 设备 。 另 外 ， 通 过 利用 SDN 控 制 器 的 集中 式 智 能 ，|IT 部 门 可 以 实时 改变 网 络 
行为 ， 可 以 在 数 小 时 或 者 数 天 之 内 部 署 新 的 应 用 和 网 络 服务 ， 而 不 是 像 现在 一 样 需 要 数 周 或 者 几 个 月 的 时 间 。 通 过 将 网 络 状态 集中 到 控制 层 ，SDN 利 用 动态 和 自动 的 编程 方式 为 网 络 管理 者 提供 了 灵活 的 配 
置 、 管 理 、 保 护 和 优化 网 络 资源 的 方式 ， 而 且 ， 管 理 员 可 以 自己 编写 这 些 程序 ， 不 用 再 等 待 新 特征 被 嵌入 到 供应 商 的 设备 和 封闭 的 网 络 软件 环境 之 中 。 


除了 提供 对 网 络 的 抽象 之 外 ，SDN 架 构 还 支持 API 接 口 实现 通用 网 络 服务 ， 包 括 路 由 、 多 播 、 访 问 控制 、 带 宽 管 理 、 流 量规 划 、Qos、 处 理 器 和 存储 资源 优化 、 能 源 使 用 以 及 所 有 形式 的 策略 管理 和 商 
业 需 求 定制 。 例 如 ，SDN 架 构 可 以 很 容易 地 在 校园 的 有 线 和 无 线 网 中 定义 和 实施 一 致 的 管理 策略 。 


同样 ，SDN 也 使 得 通过 智能 编排 和 配置 系统 (Intelligent orchestration and provisioning system) 管理 整个 网 络 变 得 可 能 。ONF 正 在 研究 如 何 通 过 开放 API 接 口 促 进 多 供应 商 管理 方式 。 在 这 种 方式 
中 ， 用 户 可 以 实现 资源 按 需 分 配 、 自 助 服务 管理 、 虚 拟 网 络 构建 以 及 安全 的 云 服 务 。 


所 以 说 ， 利 用 SDN 控 制 层 与 应 用 层 之 间 的 开放 APIl， 商 业 应 用 可 以 在 一 个 网 络 的 抽象 层 上 进行 操作 ， 利 用 其 提供 的 网 络 服务 和 功能 ， 而 不 需要 关注 其 实现 细节 。SDN 使 得 网 络 由 非 面向 应 用 逐渐 演变 大 
面向 定制 应 用 ， 使 得 应 用 由 非 面向 网 络 演进 为 面向 网 络 功 能 ， 最 终 实 现 计算 、 存 储 和 网 络 资 源 的 优化 。 


OpenFlow 首 次 定义 了 SDN 架 构 中 控制 层 和 转发 层 之 间 的 标准 通信 接口 。OpenFlow 人 允许 对 网 络 设备 包括 物理 设备 和 虚拟 设备 中 转发 层 的 直接 访问 与 控制 。 正 是 由 于 转发 层 开放 接口 的 缺乏 ， 才 导致 了 
当前 网 络 的 封闭 特征 。OpenFlow 协 议 将 网 络 控制 从 交换 机 转移 到 逻辑 集中 式 控制 软件 。 通 过 这 种 软件 模式 ， 网 络 管理 者 能 够 通过 动态 的 SDN 应 用 程序 来 配置 、 管 理 和 优化 底层 的 网 络 资源 ， 从 而 实现 灵活 
可 控 的 网 络 智能 ， 这 也 是 SDN 开 放 性 和 可 编程 性 最 重要 的 体现 。 


对 于 企业 和 运 曹 商 来 说 ，SDN 使 其 网 络 能 够 转变 为 一 项 竞争 优势 ， 而 不 仅仅 只 是 无 法 避免 的 IT 成 本 支出 。 基 于 OpenFlow 的 SDN 技 术 使 得 IT 能 够 满足 网 络 应 用 的 高 带宽 和 动态 特征 ， 使 得 网 络 能 够 适应 
不 断 变 化 的 商业 需求 ， 显 著 降 低 网 络 操作 与 管理 的 复杂 性 。 企 业 和 运营 商 能 够 从 基于 OpenFlow 的 SDN 架 构 中 获得 的 益处 包括 : 


- 多 供应 商 网 络 环境 的 集中 控制 。SDN 控 制 软件 可 以 控制 任意 厂商 提供 的 支持 OpenFlow 功 能 的 网 络 设 备 ， 包 括 交 换 机 、 路 由 器 和 虚拟 交换 机 。 不 同 于 分 别管 理 各 个 厂商 的 设备 群 组 ， 企 业 IT 部 门 可 以 利 
用 基于 SDN 的 编排 和 管理 工具 来 快速 部 署 、 配 置 和 更 新 整个 网 络 范围 中 的 设备 。 


. 通过 自动 化 降低 复杂 性 。 基 于 OpenFlow 的 SDN 提 供 了 一 个 灵活 的 网 络 自动 化 和 管理 框架 ， 通 过 开发 工具 实现 手动 管理 任务 的 自动 化 。 自 动 化 工具 能 够 降低 操作 开销 ， 减 少 由 于 操作 失误 导致 的 网 络 不 
稳定 ， 支 持 IaaS 和 自助 服务 配置 模型 。 利 用 SDN， 云 应 用 也 能 通过 智能 编排 和 配置 系统 进行 管理 ， 在 提高 商业 敏捷 性 的 同时 ， 进 一 步 降 低 操 作 开 销 。 


- 高 效 的 创新 环境 。 通 过 允许 IT 操作 员 对 网 络 进行 实时 编程 以 满足 特定 的 商业 和 用 户 需 求 ，SDN 可 以 加 速 商业 创新 。 通 过 虚拟 化 网 络 架构 ， 将 其 从 独立 的 网 络 设备 中 抽象 出 来 ，SDN 和 OpenFlow 给 予 IT 
管理 部 门 甚至 用 户 对 网 络 行为 进行 调整 的 能 力 ， 在 数 小 时 内 引入 新 的 服务 和 网 络 功能 。 


- 增强 的 网 络 可 靠 性 和 安全 性 。SDN 使 IT 管理 员 可 以 定义 面向 网 络 更 高 层 的 配置 和 策略 描述 ， 而 由 OpenFlow 将 其 转换 到 对 应 的 底层 架构 中 。 在 每 次 增加 或 者 删除 端点 、 服 务 和 应 用 ， 或 者 策略 发 生变 化 
时 ， 基 于 OpenFlow 的 SDN 消 除了 逐个 配置 网 络 设备 的 必要 性 ， 进 而 降低 了 由 于 配置 或 者 策略 不 一 致 而 导致 网 络 故障 的 可 能 性 。 


- 更 加 粒度 化 的 网 络 控制 。OpenFlow 中 基于 网 络 流 的 控制 模型 允许 IT 部 门 以 高 度 抽 和 象 和 自动 化 的 方式 在 多 种 粒度 上 应 用 控制 策略 ， 诸 如 会 话 、 用 户 、 设 备 和 应 用 。 当 客户 共享 网 络 架构 时 ， 这 种 控制 模 
式 使 得 云 操作 员 在 提供 对 多 租户 支持 的 同时 ， 还 能 够 保持 流量 的 独立 性 、 安 全 性 以 及 弹性 资源 管理 。 


. 更 好 的 用 户 体 验 。 通 过 集中 式 网 络 控制 和 使 网 络 状态 信息 对 更 高 层 应 用 可 见 ，SDN 架 构 可 以 更 好 地 适应 动态 的 用 户 需求 。 例 如 ， 在 营运 商 提供 的 视频 服务 中 ， 以 一 种 自动 和 透明 的 方式 为 高 级 订购 用 
户 提供 更 高 分 辨 率 的 视频 信息 。 而 目前 用 户 必 须 自 己 选择 分 辨 率 设 定 ， 导 致 画面 延迟 和 中 断 ， 使 用 户 体验 变 差 。 利 用 基于 OpenFlow 的 SDN， 视 频 应 用 则 能 够 实时 检测 网 络 可 用 带宽 ， 并 随 之 自动 调整 视频 分 
HE. 


戴尔 、Pica8、NEC 等 ， 也 都 将 OpenFlow 作 为 SDN 解 决 方案 的 基础 部 分 。 当 然 OpenFlow 协 议 并 不 是 SDN 架 构 的 关键 组 成 部 分 ， 许 多 供应 商 的 SDN 实 现 方案 并 不 依赖 于 OpenFlow 协 议 ， 例 如 思科 公司 的 
SDN 架 构 Open Network Environment 提 供 对 OpenFlow 技 术 的 支持 ， 但 是 并 不 要 求 用 户 必须 使 用 。 


6. 基 于 OpenFlow 的 SDN 面 临 的 问题 


在 Interop Las Vegas 2013 展 会 上 ，ONF 基 金 会 执行 董事 Dan Pitt 博 士 在 一 次 专访 中 指出 : 我 们 的 目标 是 让 复杂 的 东西 变 得 简单 。 网 络 是 一 个 非常 复杂 的 东西 ， 在 其 变 得 简单 之 前 反而 变 得 更 加 复杂 这 
一 情形 并 不 奇怪 。 现 在 人 们 正在 做 的 事情 就 是 防止 现 有 网 络 变 得 更 加 复杂 ， 同 时 向 其 中 引入 OpenFlow。 昌 然 这 么 做 并 不 能 立刻 达到 目的 ， 但 是 随 着 OpenFlow 逐 步 分 解 越 来 越 多 的 复杂 性 ， 网 络 将 会 变 得 
更 加 简单 。 对 于 那些 利用 基于 OpenFlow 的 SDN 建 立 的 新 型 网 络 来 说 ， 它 们 能 够 自动 进行 简化 ， 不 过 ， 不 同 广 商 正 在 研发 不 同 的 解决 方案 ， 有 些 解决 方案 是 在 网 络 中 加 入 复杂 设备 ， 有 些 则 是 在 网 络 组 建 开 
始 就 使 用 简单 设备 。 


虽然 基于 OpenFlow 技 术 的 SDN 架 构 已 经 引起 较 大 关注 ， 但 无 论 是 OpenFlow 协 议 本 身 ， 还 是 SDN 的 可 编程 分 离 架 构 ， 不 仅 在 技术 上 面临 着 许多 还 未 解决 的 问题 ， 在 具体 的 运作 模式 和 演进 趋势 上 也 和 
当前 网 络 设备 三 商 的 生产 理念 存在 分 层 ， 这 使 得 其 大 规模 商业 应 用 还 需要 等 待 技术 成 熟 和 市 场 推广 。 基 于 OpenFlow 技 术 的 SDN 架 构 遇 到 的 主要 问题 包括 : 


“SDN 转发 层 的 设计 复杂 化 。OpenFlow 交 换 机 作为 SDN 转 发 层 抽象 的 实际 载体 ， 协 议 标 准 处 在 不 断 更 新 当中 。 随 着 OpenFlow 交 换 机 规范 的 不 断 修订 ， 流 表 从 最 初 的 单 表 结构 变 为 多 表 结 构 ， 流 表 项 匹配 
字段 从 最 初 的 十 元 组 到 支持 IPv6、MPLS 等 ， 这 些 都 表明 SDN 转 发 层 功能 的 逐渐 扩展 ， 意 味 着 OpenFlow 交 换 机 结构 设计 的 复杂 化 ， 因 此 必须 认识 到 由 此 带 来 的 新 间 题 ,例如 多 表 结 构 中 的 流水 线 匹 配方 式 使 得 
匹配 时 延 增加 ， 在 实际 高 速 网 络 环 境 中 对 数据 转发 的 性 能 评估 就 念 发 重要 。 


- 流 表 存储 器 的 生产 成 本 。 即 网 络 转 发 设备 中 广泛 使 用 的 TCAM 存 储 器 的 生产 成 本 。TCAM 是 网 络 设备 成 本 与 功 耗 的 主要 组 成 部 分 之 一 ， 如 何 降低 OpenFlow 流 表 对 TCAM 的 占用 空间 ， 以 及 流 表 记 录 在 
TCAM 中 的 快速 动态 插入 算法 ， 都 是 OpenFlow 交 换 机 规范 制订 必须 考虑 的 因素 。 


控制 层 的 可 扩展 性 。OpenFlow 的 最 初 设计 中 仅 需 单 个 控制 器 来 实现 网 络 控制 ， 但 是 随 着 网 络 规模 的 增 大 和 业务 需求 的 增加 ， 需 要 研究 控制 层 的 可 扩展 性 ， 即 多 控制 器 解决 方案 。 而 控制 单元 的 数量 和 
它们 之 间 网 络 状态 (包括 拓扑 、 传 输 能 力 、 路 由 限制 等 ) 的 协同 和 交互 的 实现 方式 ， 都 需要 进行 深入 研究 以 保证 网 络 状态 的 一 致 性 和 可 扩展 性 。 


- SDN 控 制 逻 辑 的 一 致 性 。 控 制 层 能 够 将 控制 还 辑 集中 部 署 到 整个 网 络 ， 但 数据 转发 设备 仍然 属于 分 布 式 系统 。 控 制 远 辑 的 先后 配置 顺序 、 控 制 层 和 数据 层 之 间 可 能 存在 的 延迟 ， 都 会 难以 保证 控制 届 
辑 更 新 的 一 致 性 ， 有 可 能 导致 网 络 出 现 断 路 、 丢 包 、 环 路 等 现象 。 


. 运作 模式 和 演进 趋势 问题 。SDN 提 出 了 创新 的 网 络 设备 设计 理念 ， 在 带 来 新 的 市 场 需 求 的 同时 ， 也 对 传统 的 网 络 设备 制造 商 提 出 了 挑战 。 而 OpenFlow 自 身 设计 规范 的 不 稳定 性 和 转发 设备 硬件 的 复杂 
化 趋势 ， 也 为 OpenFlow 的 演进 带 来 了 不 确定 性 。 


4.2.2 ”以 主机 为 中 心 的 实现 


以 主机 为 中 心 (Host Dominant) 的 SDN 实 现 方案 是 为 了 满足 云 计 算 时 代 的 数据 中 心 对 网 络 服务 的 交付 能 力 要求 而 设计 的 。 实 际 上 ， 在 所 有 的 网 络 环境 中 ， 数 据 中 心 是 最 早 遭 遇 到 网 络 束缚 的 地 方 ， 数 
据 中 心 作为 互联 网 内 容 和 企业 IT 的 仓储 基地 ， 是 信息 存储 的 源头 。 为 了 满足 日 益 增长 的 网 络 服务 需求 ， 特 别 是 互联 网 业务 的 爆发 式 需求 ， 数 据 中 心 逐渐 向 大 型 化 、 自 动 化 、 虚 拟 化 、 多 租户 等 方向 发 展 。 传 
统 的 网 络 架构 处 于 静态 的 运作 模式 ， 在 网 络 性 能 和 灵活 性 等 诸多 方面 遭遇 到 挑战 。 数 据 中 心 为 了 适应 这 种 变化 只 能 疲于奔命 ， 不 断 对 物理 网 络 设施 升级 改造 ， 增 加 IT 设施 投资 来 提高 服务 水 平 ， 这 使 得 网 络 
环境 更 加 复杂 ， 更 难 控制 。 各 种 异 构 的 、 不 同 协议 的 网 络 设备 之 间 的 兼容 性 和 互通 性 令 人 望 而 生 蛙 ; 不 同 设置 间 分 散 的 控制 方法 让 网 络 的 部 署 更 困难 ， 同 时 ， 也 给 数据 中 心 增 加 了 巨大 的 经 济 成 本 和 时 间 成 
本 压力 。 在 这 种 背景 下 ， 数 据 中 心 对 SDN 技 术 有 最 直接 的 需求 ， 这 也 是 SDN 技 术 发 展 的 最 直接 动力 。 


虚拟 化 是 支撑 laas 服 务 的 关键 技术 ， 计 算 虚 拟 化 使 得 同一 套 物 理 设 备 能 够 被 多 个 虚拟 机 实例 共享 ， 从 而 将 一 台 服 务 器 “分 有 裂 ”为 多 个 “虚拟 机 ”来 调度 利用 。 因 此 ， 一 人 台 服 务 器 内 部 可 以 同时 有 多 个 虚 
拟 机 ， 而 每 个 虚拟 机 都 是 类 似 物 理 服务 器 的 业务 承载 者 。 这 种 情形 下 ， 虚 拟 机 有 着 与 物理 服务 器 一 样 的 网 络 通信 和 需求， 也 就 是 说 ， 虚 拟 机 成 为 数据 中 心 网 络 通信 的 实体 单元 ， 需 要 与 数据 中 心 内 部 的 虚拟 机 
和 物理 服务 器 之 间 进 行 网 络 通信 ， 也 需要 和 外 部 的 其 他 网 络 单元 通信 。 数 据 中 心 在 创建 了 虚拟 机 的 同时 ， 需 要 为 虚拟 机 分 配 相应 的 网 络 资源 ， 在 对 虚拟 机 进行 变更 的 时 候 ， 也 需要 对 虚拟 机 的 网 络 资源 做 相 
应 的 变更 操作 ， 如 删除 ， 移 动 ， 更 改 等 操作 。 传 统 的 数据 中 心 成 了 这 个 资源 配置 流程 的 短 板 ， 存 在 着 网 络 部 署 慢 、 流 程 复 杂 、 受 站 点 限制 、 物 理 设备 限制 等 诸多 问题 。 比 如 ， 在 实际 操作 过 程 中 ， 哪 怕 是 实 
现 一 个 简单 的 转变 ， 网 络 团队 也 需要 通过 繁琐 的 流程 ， 包 括 规划 变更 ， 然 后 提交 到 “变更 控制 ”系统 进行 检查 。 这 个 系统 要 求 其 他 人 员 考 虑 和 审批 所 提交 的 预案 。 之 后 ， 管 理 员 或 工程 师 实 施 变 更 ， 最 终 还 
必须 验证 它 是 否 符合 预期 要 求 。 这 个 过 程 效 率 极 低 ， 完 成 一 个 修改 需要 几 天 甚至 几 周 时 间 ， 而 且 很 可 能 会 出 现 人 为 错误 。 


传统 网 络 除了 对 虚拟 机 的 管理 造成 了 约束 ， 还 约束 了 虚拟 机 部 署 的 数量 。 在 大 二 层 网 络 环境 下 ， 数 据 流 均 需 要 通过 明确 的 网 络 寻 址 以 保证 准确 到 达 目 的 地 ， 因 此 网 络 设备 的 二 层 地 址 表 项 大 小 ( 即 MAC 
地 址 表 ) 成 为 决定 云 计算 环境 下 虚拟 机 的 规模 的 上 限 ， 并 且 因 为 表 项 并 非 百 分 之 百 有 效 ， 使 得 可 用 的 虚拟 机 数量 进一步 降低 ， 特 别 是 对 于 低 成 本 的 接 入 设备 而 言 ， 因 其 表 项 一 般 规 格 较 小 ， 限 制 了 整个 云 计 
算数 据 中 心 的 虚拟 机 数量 ， 但 如 果 其 地 址 表 项 设计 为 与 核心 或 网 关 设 备 在 同一 档次 ， 则 会 提升 网 络 建设 成 本 。 虽 然 核心 或 网 关 设 备 的 MAC 与 ARP 规 格 随 着 虚拟 机 的 增长 也 会 面临 挑战 ， 但 对 于 此 层次 设备 能 
力 而 言 ， 大 规格 是 不 可 避免 的 业务 支撑 要 求 。 减 小 接 入 设备 规格 压力 的 做 法 是 可 以 分 离 网 关 能 力 ， 如 采用 多 个 网 关 来 分 担 虚 拟 机 的 终结 和 承载 ， 但 如 此 也 会 带 来 成 本 的 上 升 。 


多 租户 是 laaS 的 主要 服务 形态 ， 需 要 保证 租户 之 间 的 网 络 隔离 。 传 统 网 络 中 通过 使 用 VLAN 来 划分 租户 的 网 络 领域 ， 目 前 IEEE 802.1Q VLAN 规 范 仅 支 持 4096 个 VLAN 标 识 符 ， 随 着 租户 的 增长 和 应 用 的 
增加 ，VLAN 的 消耗 很 容易 达到 上 限 规模 。 一 旦 达到 上 限 规模 ， 网 络 管理 员 则 需要 建立 另外 一 个 物理 的 VLAN 域 ， 并 且 管 理 两 套 策 略 ， 如 此 下 去 ， 网 络 管理 员 就 要 面临 建立 多 个 物理 的 VLAN 域 及 管理 多 个 策 
略 的 问题 。 不 同 VLAN 域 内 的 资源 无 法 共享 ， 不 但 无 法 形成 资源 池 的 计划 应 用 ， 也 造成 管理 上 的 困扰 。 云 计算 的 数据 中 心 本 质 上 是 一 个 资源 池 的 概念 ， 能 否 实现 资源 池 运 用 的 最 大 化 是 衡量 云 服务 成 功 与 否 
的 重要 指标 ， 云 资源 的 动态 分 配 才能 保证 资源 的 充分 利用 ， 否 则 ， 资 源 和 业务 的 捆绑 会 造成 资源 的 过 度 配 置 ， 导 致 资源 利用 效率 低下 。 据 统计 ， 在 传统 的 数据 中 心里 ，1T 资 源 的 平均 利用 率 不 到 20%。 


同时 ， 数 据 中 心 必须 具备 高 可 靠 性 ， 保 证 业务 正常 运行 ， 保 证 服务 供给 ， 减 少 系统 死机 时 间 ， 提 升 服务 质量 ， 这 需要 数据 中 心 具备 虚拟 机 的 实时 迁移 能 力 。 一 方面 ， 虚 拟 机 的 实时 迁移 可 以 平衡 物理 资 
源 的 利用 率 。 比 如 当 某 一 台 服 务 器 的 利用 率 即将 超过 设 定 的 最 大 值 ， 而 另 一 台 服 务 器 的 利用 率 比 较 低 时 ， 需 要 通过 自动 动态 迁移 的 功能 ， 把 利用 率 超 出 限定 值 的 物理 服务 器 上 的 虚拟 机 迁移 到 相对 较为 空闲 
的 物理 机 上 ， 实 现 计算 资 源 的 合理 利用 。 另 一 方面 ， 虚 拟 机 实时 迁移 对 于 系统 的 可 靠 性 和 服务 水 平 的 提升 来 说 也 不 可 或 缺 。 当 某 一 个 物理 的 服务 器 出 现 问题 时 ， 需 要 通过 虚拟 机 动态 迁移 的 功能 ， 将 该 物理 
机 上 的 虚拟 机 迁移 到 其 他 的 服务 器 上 ， 以 确保 业务 的 连续 性 和 服务 水 平 。 传 统 的 网 络 架构 限制 了 虚拟 机 迁移 的 边界 ， 只 能 在 一 个 大 的 二 层 子 网 里 进行 ， 不 能 跨 站 点 甚至 跨 数据 中 心 迁移 。 


现实 的 需求 对 传统 数据 中 心 的 网 络 架 构 提 出 了 严峻 的 挑战 ， 数 据 中 心 的 网 络 需要 能 够 像 计 算 一 样 被 软件 定义 ， 能 够 快速 地 编程 式 调配 、 无 中 断 部 署 、 在 任何 通用 IP 网 络 连 接 硬件 上 同时 支持 旧版 应 用 和 
新 应 用 ， 并 使 网 络 连接 服务 摆脱 与 硬件 绑 定 的 限制 条 件 。 利 用 独立 于 物理 网 络 的 虚拟 网 络 ， 将 逻辑 网 络 组 件 (逻辑 交换 机 、 逻 辑 路 由 器 、 逻 辑 防火 墙 、 逻 辑 负载 平衡 器 、 逻 辑 VPN 等 ) 提供 给 已 连接 的 工作 
负载 ; 利用 底层 物理 网 络 作为 简单 的 数据 包 转 发 底板 ， 以 编程 方式 创建 、 调 配 和 管理 逻辑 网 络 ， 是 以 主机 为 中 心 的 SDN 的 核心 思想 。 


在 具体 的 设计 方案 中 ， 以 主机 为 中 心 的 SDN， 将 控制 层 和 数据 层 分 离 。 将 设备 或 服务 的 控制 功能 从 其 实际 执行 中 抽 离 出 来 ， 为 现 有 的 网 络 添加 编程 能 力 和 定制 能 力 ， 使 网 络 有 弹性 、 易 管理 而 且 有 对 外 
开放 能 力 ; 数据 层 则 不 改变 现 有 的 物理 网 络 设置 ， 利 用 网 络 虚 拟 化 技术 实现 逻辑 网 络 。 


. 在 控制 层面 上 ， 以 主机 为 中 心 的 SDN 实 现 方案 提供 了 集中 化 的 控制 器 ， 集 中 了 传统 交换 设备 中 分 散 的 控制 能 力 ， 除 了 完成 SDN 控 制 器 的 南 向 、 北 向 及 东西 向 的 功能 ， 还 通常 作为 数据 中 心 的 一 个 模块 
或 者 是 一 个 单独 的 组 件 ， 支 持 和 其 他 多 种 管理 软件 的 集成 ， 比 如 资源 管理 、 流 程 管理 、 安 全 管理 软件 等 ， 从 而 将 网 络 资源 更 好 地 整合 到 整个 IT 运营 中 。 


. 在 数据 层 ， 主 要 以 网 络 登 加 (Network Overlay) 技术 为 基础 ， 以 网 络 虚 拟 化 为 核心 。 这 种 方式 不 改变 现 有 的 网 络 ， 但 是 在 服务 器 Hypervisor 层 面 增加 一 层 虚 拟 的 接 入 交换 层 来 提供 虚拟 机 间 快 速 的 二 层 
互通 隧道 。 在 共享 的 底层 物理 网 络 基础 上 创建 远 辑 上 彼此 隔离 的 虚拟 网 络 ， 底 层 的 物理 网 络 对 租户 透明 ， 使 租户 感觉 自己 是 在 独 享 物理 网 络 。 网 络 登 加 技术 使 数据 中 心 的 网 络 从 二 层 网 络 的 限制 中 解放 了 出 
来 ， 只 要 IP 能 到 达 的 地 方 ， 虚 拟 机 就 能 够 部 署 、 迁 移 ， 网 络 服务 就 能 够 交付 。 


1. 从 计算 虚拟 化 到 网 络 虚 拟 化 


网 络 虚拟 化 是 指 将 网 络 的 控制 从 网 络 物理 硬件 中 脱离 出 来 ， 交 给 虚拟 化 的 网 络 层 处 理 。 这 个 虚拟 化 的 网 络 层 加 载 在 物理 网 络 之 上 ， 屏 蔽 掉 底 层 的 物理 差异 ， 在 虚拟 的 空间 重建 整个 网 络 。 因 此 ， 物 理 网 
络 资源 将 被 泛 化 成 网 络 资源 池 ， 正 如 服务 器 虚拟 化 技术 把 服务 器 资源 转化 为 计算 资源 池 一 样 ， 它 使 得 网 络 资源 的 调用 更 加 灵活 ， 满 足 用户 对 网 络 资源 的 按 需 交 付 需求 。 


逻辑 网 络 资源 池 是 灵活 管理 资源 的 逻辑 抽象 ， 也 是 对 网 络 资源 的 一 种 形象 描述 。 将 网 络 资源 “ 池 ” 化 能 够 最 大 限度 地 提高 网 络 资源 的 效率 和 利用 率 。 逻 辑 资源 池 可 以 根据 业务 需要 或 部 门 变 动 灵 活 地 进 
行 添加 、 删 除 或 重组 。 各 个 资源 池 相 互 隔离 ， 因 此 在 一 个 资源 池 中 进行 分 配 更 改 时 ， 不 会 影响 其 他 无 关 的 池 (如 图 4-15 所 示 ) 。 资 源 池 可 扩展 不 但 可 以 弥补 资源 池 规划 时 的 不 足 问题 ， 还 能 满足 业务 发 展 以 
及 动态 调整 的 需要 。 
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图 4-15 ”网 络 资源 池 


数据 中 心 的 网 络 虚 拟 化 同时 还 要 解决 私有 云 和 混合 云 部 署 的 问题 。 私 有 云 要 解决 的 是 多 租户 的 问题 ， 一 个 租户 可 以 是 任何 一 个 应 用 一 一 企业 内 部 应 用 或 外 部 应 用 ， 它 需要 有 安全 、 排 他 的 虚拟 计算 环 
境 ， 该 环境 包含 了 从 存储 到 用 户 界面 的 所 有 或 者 某 些 选 定 的 企业 架构 层 。 这 种 租户 的 私有 环境 需要 有 网 络 的 隔离 作为 基础 (如 图 4-16 所 示 ) 。 混 合 云 则 需要 解决 虚拟 网 络 访问 外 部 物理 网 络 的 问题 ， 数 据 中 
心 已 经 不 再 局 限于 四 面 墙 当 中 ， 地 理 上 相互 隔离 的 故障 转移 数据 中 心 实现 了 相互 连接 。 位 于 虚拟 网 络 当中 的 系统 通常 需要 访问 外 面 的 网 络 。 同 样 ， 外 部 客户 也 需要 对 位 于 虚拟 网 络 中 的 主机 提供 的 服务 进行 
访问 ， 这 实际 上 是 要 求 数据 中 心 的 虚拟 网 络 也 是 一 个 开放 的 网 络 (如 图 4-17 所 示 ) 。 
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图 4-16 在 共享 物理 网 络 的 基础 上 实现 隔离 的 逻辑 网 络 
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网 络 虚拟 化 结构 


图 4-17 MSSC 混 合 云 网 络 框架 


网 络 虚拟 化 技术 并 不 是 一 个 完全 新 鲜 的 事物 ， 传 统 的 虚拟 专用 网 络 (VPN) 已 经 存在 了 很 多 年 ， 比 如 GRE、L2TP、PPTP 等 技术 。 隧 道 技术 是 一 种 通过 使 用 互联 网 络 的 基础 设施 在 网 络 之 间 传 递 数据 的 
方式 ， 使 用 隧道 传递 的 数据 (或 负载 ) 可 以 是 不 同 协议 的 数据 帧 或 包 。 隧 道 协议 将 这 些 数 据 帧 或 包 重 新 封装 在 新 的 包头 中 发 送 ， 新 的 包头 提供 了 路 由 信息 ， 从 而 使 封装 的 负载 数据 能 够 通过 互联 网 络 传递 。 
被 封装 的 数据 包 在 隧道 的 两 个 端点 之 间 通 过 公共 互联 网 络 进行 路 由 ， 其 所 经 过 的 逻辑 路 径 称 为 隧道 。 一 旦 到 达 网 络 终点 ， 数 据 将 被 解 包 并 转发 到 最 终 目 的 地 。 


传统 的 VPN 技 术 的 缺点 是 不 能 完全 解决 大 规模 云 计 算 环境 下 的 问题 ， 一 定 程度 上 还 需要 更 大 范围 的 技术 革新 来 消除 这 些 限制 ， 逐 步 演化 出 新 的 网 络 协 议和 技术 ， 以 满足 云 计算 虚拟 化 的 网 络 能 力 需 求 。 
2. 网 络 芭 加 技术 


网 络 老 加 技术 指 的 是 一 种 网 络 架构 上 考 加 的 虚拟 化 技术 模式 ， 其 大 体 框架 是 对 基础 网 络 不 进行 大 规模 修改 的 条 件 下 ， 实 现 应 用 在 网 络 上 的 承载 ， 并 能 与 其 他 网 络 业务 分 离 ， 以 基于 IP 的 基础 网 络 技术 为 
主 。 其 实 这 种 模式 是 以 对 传统 技术 的 优化 而 形成 的 。 早 期 就 有 标准 支持 的 二 层 Overlay 技 术 ， 如 RFC3378 (Ethernet in IP) ， 并 且 基 于 Ethernet over GRE 的 技术 H3C 与 思科 都 在 物理 网 络 基础 上 分 别 发 展 
了 私有 二 层 Overlay 技 术 一 一 EVI (Ethernet Virtual Interconnection) 与 OTV (Overlay Transport Virtualization) 。EVI 与 OTV 都 主要 用 于 解决 数据 中 心 之 间 的 二 层 互联 与 业务 扩展 问题 ， 并 且 对 于 承载 
网 络 的 基本 要 求 是 IP 可 达 ， 部 署 上 简单 有 扩展 方便 。 


在 技术 上 ， 网 络 赤 加 技术 可 以 解决 目前 数据 中 心 面临 的 三 个 主要 问题 : 


* 解决 了 认 拟 机 迁移 范围 受到 网 络 架 构 限 制 的 问题 。 网 络 有 登 加 是 一 种 封装 在 IP 报 文 之 上 的 新 的 数据 格式 ， 因 此 ， 这 种 数据 可 以 通过 路 由 的 方式 在 网 络 中 分 发 ， 而 路 由 网 络 本 身 并 无 特殊 网 络 结构 限制 ， 
具备 良性 大 规模 扩展 能 力 ， 并 且 对 设备 本 身 无 特殊 要 求 ， 以 高 性 能 路 由 转发 为 佳 ， 且 路 由 网 络 本 身 具备 很 强 的 故障 自 僵 能 力 、 负 载 均衡 能 力 。 采 用 网 络 且 加 技术 后 ， 企 业 部 署 的 现 有 网 络 便 可 用 于 支撑 新 的 
云 计算 业务 ， 改 造 难度 极 低 ( 除 性 能 可 能 是 考量 因素 外 ， 技 术 上 对 于 承载 网 络 并 无 新 的 要 求 ) 。 


: 解决 了 虚拟 机 规模 受 网 络 规格 限制 的 问题 。 虚 拟 机 数据 封装 在 IP 数 据 包 中 后 ， 对 网 络 只 表现 为 封装 后 的 网 络 参数 ， 即 隧道 端点 的 地 址 ， 因 此 ， 对 于 承载 网 络 〈 特 别 是 接 入 交换 机 ) ，MAC 地 址 规格 需 
求 极 大 降低 ， 最 低 规格 也 就 是 几 十 个 〈 每 个 端口 一 台 物 理 服务 器 的 隧道 端点 MAC) 。 当 然 ， 对 于 核心 /网 关 处 的 设备 表 项 (MAC/ARP) 要 求 依然 极 高 ， 当 前 的 解决 方案 仍然 是 采用 分 散 方式 ， 通 过 多 个 核心 / 


网 关 设备 来 分 散 表 项 的 处 理 压 力 。 


解决 了 网 络 隔离 /分 离 能 力 限制 的 问题 。 针 对 VLAN 数 量 在 4000 以 内 的 限制 ， 在 网 络 且 加 技术 中 引入 了 类 似 12 比 特 VLAN ID 的 用 户 标识 ， 该 标识 支持 千 万 级 以 上 ， 并 且 在 Overlay 中 沿袭 了 云 计算 “ 租 
户 ” 的 概念 ， 称 之 为 Tenant ID (租户 标识 ) ， 用 24 或 64 比 特 表 示 。 针 对 VLAN 技 术 下 网 络 的 TRUANK ALL (VLAN 穿 透 所 有 设备 ) 的 问题 ， 网 络 司 加 对 网 络 的 VLAN 配 置 无 要 求 ， 可 以 避免 网 络 本 身 的 无 效 流 


量 带 宽 浪费 ， 同 时 网 络 司 加 的 二 层 连 通 基 于 虚拟 机 业务 需求 而 创建 ， 在 云 的 环境 中 全 局 可 控 。 


目前 ，IETF 在 Overlay 技 术 领 域 有 如 下 三 大 技术 路 线 正 在 讨论 : 


- VXLAN (Virtual eXtensible Local Area Network) ， 是 由 VMware、 思 科 、Arista、Broadcom、Citrix 和 红 帆 共同 提出 的 I[ETF 草 案 ， 是 一 种 将 以 太 网 报 文 封装 在 UDP 传 输 层 上 的 隧道 转发 模式 ， 目 的 UDP 端 
口号 为 4798。 为 了 使 VXLAN 充 分 利用 承载 网 络 路 由 的 均衡 性 ，VXLAN 将 原始 以 太 网 数据 头 (MAC、IP、 四 层 端 口号 等 ) 的 散 列 值 作为 UDP 源 端口 ， 这 样 ， 当 物理 设备 用 外 部 Tunnel 头 中 的 UDP 源 端口 计算 散 
列 值 时 ， 实 际 上 就 已 经 包含 了 内 部 原始 报 文 头 部 的 信息 ， 从 而 可 以 更 好 地 做 负载 均衡 ; 采用 24 比 特 标识 二 层 网 络 分 段 ， 称 为 VNI (VXLAN Network Identifier) ， 类 似 于 VLAN ID 的 作用 ; 未 知 目的 、 广 播 、 
组 播 等 网 络 流量 均 被 封装 为 组 播 转 发 ， 物 理 网 络 要 求 支 持 任意 源 组 播 (ASM) o 

- NVGRE (Network Virtualization using Generic Routing Encapsulation) ， 是 微软 、Dell 等 提出 的 草案 ， 是 将 以 太 网 报 文 封装 在 GRE 内 的 一 种 隧道 转发 模式 。 采 用 24 比 特 标 识 二 层 网 络 分 段 ， 称 为 
VSI (Virtual Subnet Identifier) ， 类 似 于 VLAN ID 的 作用 ; 为 了 使 NVGRE 利 用 承载 网 络 路 由 的 均衡 性 ，NVGRE 在 GRE 扩 展 字 段 low ID， 这 就 要 求 物 理 网 络 能 够 识别 GRE 隧 道 的 扩展 信息 ， 并 以 flow ID 进行 流 


量 分 担 ， 在 这 一 点 上 它 不 如 VXLAN 的 是 ， 不 少 网 络 设备 不 支持 用 GRE Key 做 负载 均衡 的 散 列 计算 ; 未 知 目的 、 广 播 、 组 播 等 网 络 流量 均 被 封装 为 组 播 转 发 。 


- STT (Stateless Transport Tunneling) ， 是 Nicira 公 司 提 出 的 一 种 Tunnel 技 术 ， 目 前 主要 用 于 Nicira 自 己 的 NVP 平 台 上 。STT 利 用 了 TCP 的 数据 封装 形式 ,但 改造 了 TCP 的 传输 机 制 ， 数 据 传输 遵循 全 新 定义 
的 无 状态 机 制 ， 无 需 三 次 握手 ， 以 太 网 数据 封装 在 无 状态 TCP; 采用 64 比 特 Context ID 标识 二 层 网 络 分 段 ; 为 了 使 SITT 充 分 利用 承载 网 络 路 由 的 均衡 性 ， 将 原始 以 太 网 数据 头 (MAC、IP、 四 层 端 口号 等 ) 的 
散 列 值 作为 无 状态 TCP 的 源 端 口号 ;未知 目 的 、 广 播 、 组 播 等 网 络 流量 均 被 封装 为 组 播 转发 。STT 的 一 个 弱点 是 只 能 用 在 虚拟 交 挽 机 上 。 


表 4-1 和 表 4-2 对 这 三 种 技术 和 封装 格式 进行 了 基本 的 总 结 和 比较 。 


表 4-1 IETF 三 种 Ovetlay 技 术 的 总 体 比 较 


技术 名 称 文 持 者 文 持 方式 简 述 网 络 虚拟 化 方式 | 数据 新 增 包 头 长 度 | 链 路 Hash 能 


思科 /VMware 


DUE VXLAN 报头 = " 现 有 网络 可 进 
VXLAN Citrix/Red hat L2 over UDP 0 字 节 (+ 原 数 据 )| .. | 
24bit VNI fT L2 ~ L4 Hash 
Broadcom 
: HP/MS/DELL /Intel NVGRE 报头 dedu rx | “GRE SH 
NVGRE L2 over GRE / 5 Gg Xd) 


Emulex/Broadcom 24bit VSI 需要 网 络 升级 


L2oTCP (无 状态 
VMware e STT 报头 64bit J 现 有 网 络 可 进 
in TCP, Bl L2 在 类 似 " " | 
( Nicira ) i Er one ee Context ID a | fT L2 ~ L4 Hash 
TCP 的 传输 层 ) 


STI 


表 4-2 三 种 Ovetlay 协 议 包 封装 格式 


技术 名 称 数据 封装 


Outer 5 Ip Outer | AN | Ip IP Pavlcad 
uter UDP MAC nner nner ayloa 
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VXLAN Network Identifier (VNI) 


NVGRE 
Protocol Type 
Tenant Network ID (TNI) 
0 24 3 
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Context ID 


L4 Offset 


31 


Padding 
0 16 


这 三 种 二 层 网 络 赤 加 技术 ， 大 体 思 路 均 是 将 以 太 网 报 文 承载 到 某 种 隧道 层面 ， 其 差异 性 在 于 选择 和 构造 隧道 的 不 同 ， 而 底层 均 是 IP 转 此 。VXLAN 和 3STT 对 于 现 网 设备 的 流量 均衡 要 求 较 低 ， 即 负载 链 路 
负载 分 担 适应 性 好 ， 一 般 的 网 络 设备 都 能 对 L2~1L4 的 数据 内 容 参 数 进 行 链 路 聚合 或 等 价 路 由 的 流量 均衡 ， 而 NVCRE 则 需要 网 络 设备 对 GRE 扩 展 头 感知 并 对 flow ID 进行 Hash， 需 要 硬件 升级 ; STT 对 于 TCP 有 
较 大 修改 ， 隧 道 模式 接近 UDP 性 质 ， 隧 道 构造 技术 具有 革新 性 ， 且 复杂 度 较 高 ， 而 VXLAN 利 用 了 现 有 通用 的 UDP 传输 ， 成 熟 性 极 高 。 总 体 来 说 ，VLXAN 技 术 相对 具有 优势 。 


3.VXLAN 草 案 


(1) VXLAN 的 包 封装 格式 
在 VXLAN 的 草案 建议 的 VXLAN 封 装 格式 中 ， 使 用 MAC in UDP 的 方法 进行 封装 ， 共 50 字 节 的 封装 报 文 头 。 具 体 的 报 文 格式 如 图 4-18 所 示 。 
1) VXLAN 头 部 。 共 计 8 个 字 节 ， 目 前 使 用 的 是 Flags 中 的 一 个 8bit 的 标识 位 和 24bit 的 VNI (Vxlan Network Identifier) ， 其 余部 分 没有 定义 ， 但 是 在 使 用 的 时 候 必须 设置 为 0x0000。 


2) 外 层 的 UDP 报头 。 目 的 端口 使 用 4798， 但 是 可 以 根据 需要 进行 修改 ， 同 时 UDP 的 校 验 和 必须 设置 成 全 0。 
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图 4-18 VXLAN& 2544 


3) 1IP 报 文 头 。 目 的 IP 地 址 可 以 是 单 播 地 址 ， 也 可 以 是 多 播 地 址 。 单 播 情况 下 ， 目 的 IP 地 址 是 VTEP (Vxlan Tunnel End Point) 的 IP 地 址 ; 多 播 情 况 下 引入 VXLAN 管 理 层 ， 利 用 VNI 和 IP 多 播 组 的 映射 
来 确定 VTEPs。protocol 设 置 值 为 0x11， 说 明 这 是 UDP 数据 包 。9Source ip 是 源 vTEP_IP。 Destination ip 是 目的 VTEP IP. 


4) Ethernet Header, Destination Address: 目的 VTEP 的 MAC 地 址 ， 即 为 本 地 下 一 跳 的 地 址 (通常 是 网 关 MAC 地 址 ) 。VLAN Type 被 设置 为 0x8100， 并 可 以 设置 Vlan Id tag (这 就 是 vxlan 的 vlan 
标签 ) 。Ethertype 设 置 值 为 0x8000， 指 明 数 据 包 为 IPv4 的 。 


(2) VTEP 


隧道 终端 (VXLAN Tunneling End Point, VTEP) 用 于 多 VXLAN 报 文 进行 封装 / 解 封装 ， 包 括 MAC 请 求 报 文 和 正常 VXLAN 数 据 报 文 ， 在 一 端 封装 报 文 后 通过 隧道 向 另 一 端 VTEP 发 送 封装 报 文 ， 另 一 端 
VTEP 接 收 到 封装 的 报 文 解 封 装 后 根据 被 封装 的 MAC 地 址 进行 转发 ， 其 逻辑 结构 如 图 4-19 所 示 ，VTEP 可 由 支持 VXLAN 的 硬件 设备 或 软件 来 实现 。 
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图 4-19 VTEP3Z Ht 2545 
(3) VXLAN 网 关 


如 果 需 要 VXLAN 网 络 和 非 VXLAN 网 络 连 接 ， 必 须 使 用 VXLAN 网 关 才 能 把 VXLAN 网 络 和 外 部 网 络 进 行 桥接 并 完成 VXLAN ID 和 VLAN ID 之 间 的 映射 和 路 由 (如 图 4-20 所 示 ) 。 和 VLAN 一 样 ，VXLAN 网 
络 之 间 的 通信 也 需要 三 层 设备 的 支持 ， 即 VXLAN 路 由 的 支持 ，VXLAN 网 关 可 由 硬件 和 软件 来 实现 。 从 封装 的 结构 上 来 看 ，VXLAN 提 供 了 将 二 层 网 络 革 加 在 三 层 网 络 上 的 能 力 ，VXLAN 头 部 中 的 VNI 有 24 个 
比特 ， 数 量 远 远大 于 4096， 并 且 UDP 的 封装 可 以 穿越 三 层 网 络 ， 比 VLAN 有 更 好 的 扩展 性 。 


当 收 到 从 VXLAN 网 络 到 普通 网 络 的 数据 时 ，VXLAN 网 关 去 掉 外 层 包 头 ， 根 据 内 层 的 原始 帧 头 转发 到 普通 端口 上 ; 当 有 数据 从 普通 网 络 进 入 到 VXLAN 网 络 时 ，VXLAN 网 关 负 责 打 上 外 层 包头 ， 并 根据 原 
始 VLAN ID 对 应 到 一 个 VNI， 同 时 去 掉 内 层 帧 头 的 VLAN ID 信 息 。 相 应 的 如 果 VXLAN 网 关 发 现 一 个 VXLAN 包 的 内 层 帧 头 上 还 带 有 原始 的 二 层 VLAN ID， 会 直接 将 这 个 包 丢 弃 。 之 所 以 这 样 ， 是 因为 VLAN 
ID 是 一 个 本 地 信息 ， 仅 仅 在 一 个 地 方 的 二 层 网 络 上 起 作用 ，VXLAN 是 隧道 机 制 ， 并 不 依赖 VLAN ID 进行 转发 ， 也 无 法 检查 VLAN ID 正确 与 否 。 因 此 ，VXLAN 网 关连 接 传统 网 络 的 端口 必须 配置 ACCESS 口 ， 
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图 4-20 VXLAN-VLAN lj X 
(4) VXLAN 控 制 器 


VXLAN 不 会 在 虚拟 机 之 间 维 持 长 连接 ， 所 以 VXLAN 需 要 一 个 控制 层 来 记录 对 端 地 址 可 达 情 况 。 控 制 层 的 表 为 (VNI1， 内 层 MAC， 外 层 vtep_ip) 。VXLAN 学 习 地 址 的 时 候 仍然 保存 着 二 层 协议 的 特征 ， 
节点 之 间 不 会 周期 性 地 交换 各 自 的 路 由 表 ， 对 于 不 认识 的 MAC 地 址 ，VXLAN 依 靠 组 播 来 获取 路 径 信息 。 另 一 方面 ，VXLAN 还 有 自学 习 的 功能 ， 当 VTEP 收 到 一 个 UDP 数据 包 后 ， 会 检查 自己 是 否 收 到 过 这 个 
虚拟 机 的 数据 ， 如 果 没 有 ，VTEP 就 会 记录 源 VNI/ 源 外 层 IP/ 源 内 层 MAC 对 应 关系 ， 避 免 组 播 学 习 。 


组 播 的 问题 可 通过 SDN 控 制 器 与 VXLAN 配 合 来 解决 ， 其 原理 如 图 4-21 所 示 。 

解决 组 播 的 问题 主要 技术 要 点 为 : 

1) SDN 控 制 器 兼 做 ARP 代 理 (类 似 Router) ， 获 知 (MAC, IP) 对 ， 在 不 同 的 数据 中 心 的 SDN 控 制 器 间 交 换 (MAC. IP) 表 。 
2) 组 播 抑制 ，VM 将 内 层 VM 的 MAC 到 | 外 层 IP (网 关 IP) 的 对 应 关系 及 时 发 布 给 SDN 控 制 器 ， 在 SDN 控 制 器 间 及 时 交换 信息 

3) 通过 组 播 头 端 复 制 ， 将 应 用 层 带 来 的 组 播 变 成 多 个 单 播 。 


交换 地 址 对 ， 转 发 表 
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4-21 VXLAN SDN 控 制 器 兼 做 ARP 代 理 
(5) VXLAN 完 整 的 通信 过 程 


在 一 个 纯 VXLAN 部 署 的 环境 里 ， 对 于 连接 到 VXLAN 内 的 虚拟 机 ， 由 于 虚拟 机 的 VLAN 信 息 不 再 作为 转发 的 依据 ， 虚 拟 机 的 迁移 也 就 不 再 受 三 层 网 关 的 限制 ， 可 以 实现 跨越 三 层 网 关 的 迁移 。 图 4-22 描 述 
了 一 个 完整 的 纯 VXLAN 通 信 过 程 的 场景 。 
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图 4-22 VXLAN 通 信 过 程 拓扑 


当 VM1 向 VM2 发 送 一 个 数据 包 ，VM1 首 先 需要 知道 VM2 的 MAC 地 址 ， 这 个 过 程 (ARP 广 播 过 程 ) 如 下 所 述 : 

- VM1 发 送 一 个 ARP 包 ， 请 求 VM2 的 IP 地 址 192.168.0.101 对 应 的 MAC 地 址 。 

- APR 包 被 VTEP1 封 装 在 一 个 VXLAN 的 广播 包 里 ， 向 VNI 864 的 广播 域 发 送 。 

: VNI 864 广 播 域 内 的 所 有 VTEP 都 会 收 到 这 个 广播 包 ， 收 到 后 ， 会 建立 起 VTEP1 和 VMI1 之 间 的 对 应 关系 ， 并 将 这 个 关系 记录 下 来 。 
: VTEP2 接 收 到 广播 包 后 ， 将 包 解 封装 ， 然 后 向 和 自己 关联 的 VNI 为 864 的 端口 组 发 送 原 始 的 ARP 包 (没有 封装 过 的 ) 。 

: VM2 接 收 到 这 个 原始 ARP 包 后 ， 回 复 一 个 包含 自己 MAC 地 址 的 ARP 应 答 。 

: VTEP2 将 这 一 应 答 做 VXLAN 封 装 ， 向 VIEP1 发 送 一 个 IP 单 播 。 

: VTEP1 收 到 这 个 回复 后 ， 解 封装 并 将 包 发 送 给 VM1。 
到 目前 为 止 , VM1 已 经 知道 YM2 的 MAC 地 址 ， 就 能 够 与 YM2 直 接 通信 。 直 接 通信 过 程 如 下 : 

> VM1 向 VM2 发 送 一 个 IP 包 ， 发 送 地 址 是 192.168.0.100， 目 的 地 址 是 192.168.0.101。 


: VTEP1 将 会 按照 如 下 的 方式 对 这 个 IP 包 做 封装 : 添加 VXLAN 头 部 ，VNI 值 为 864; 标准 UDP 头 ，checksum 值 为 0x0000， 目 的 端口 设置 为 VXLAN IANA 端口 ， 不 同 的 供应 商 有 不 同 的 端口 ， 比 如 Cisco 
NIKV #9 3% € 48472; 标准 的 IP 头 ， 目 的 IP 地 址 是 VIEP2 的 地 址 12.123.45.57， 协 议 设置 为 0x11; MAC 头 ， 即 数据 包 下 一 跳 的 MAC 地 址 ， 在 本 例 中 ，MAC 地 址 为 路 由 器 的 MAC 地 址 00: 10: 11: FE: D8: 
D2。 


- 通过 路 由 的 传递 ，VTEP2 能 够 接收 到 这 个 包 ， 并 根据 UDP 目的 端口 号 识别 到 这 是 一 个 VXLAN 封 装 包 ， 然 后 根据 VXLAN 头 部 的 VNI 找 到 864 端 口 组 (类似 于 虚拟 交换 机 的 端口 组 ) ， 如 果 端 口 组 和 VM2 
正常 ，VTEP2 会 将 VXLAN 包 解 封 装 ， 将 原始 的 数据 包 传 递 给 VM2。 


 VM2 接 收 到 解 封 装 的 数据 包 ， 按 照 和 其 他 正常 的 IP 数 据 包 一 样 的 方式 处 理 。 
同样 ，VM2 回 复 给 VM1 的 IP 数 据 包 也 是 按照 上 述 步骤 来 完成 。 


4. 小 结 

网 络 虚拟 化 将 网 络 的 边缘 从 硬件 交换 机 推 到 了 服务 器 里 面 ， 将 服务 器 和 虚拟 机 的 所 有 部 署 、 管 理 的 职能 从 原来 的 系统 管理 员 + 网 络 管理 员 的 模式 变 成 了 纯 系统 管理 员 的 模式 ， 让 服务 器 的 业务 部 署 变 得 
简单 ， 不 再 依赖 于 形态 和 功能 各 异 的 硬件 交换 机 ， 一 切 归 于 软件 控制 ， 实 现 自动 化 部 署 。 这 就 是 网 络 虚 拟 化 在 数据 中 心中 最 大 的 价值 所 在 ， 也 是 为 什么 大 家 明知 服务 器 的 性 能 远 远 比 不 上 硬件 交换 机 但 还 是 
使 用 网 络 虚 拟 化 技术 的 根本 原因 。 甚 至 可 以 说 当年 提出 SDN 概 念 ， 很 大 程度 上 是 为 了 解决 数据 中 心里 面 虚拟 机 部 署 复杂 的 问题 。 网 络 虚 拟 化 以 及 云 计 算 ， 是 SDN 发 展 的 第 一 推动 力 ， 而 SDN 为 网 络 虚 拟 化 和 
云 计 算 提 供 了 自动 化 的 强 有 力 的 手段 。 


网 络 芭 加 技术 作为 网 络 虚拟 化 在 数据 层 的 实现 手段 ， 解 决 了 虚拟 机 迁移 范围 受到 网 络 架 构 限 制 、 虚 拟 机 规模 受 网 络 规格 限制 、 网 络 隔 离 /分 离 能 力 限制 的 问题 。 同 时 ， 支 持 网 络 呈 加 的 各 种 协议 、 技 术 正 
不 断 演进 ，VXLAN 作 为 一 种 典型 的 二 加 协议 ， 最 具有 代表 性 。Linux 内 核 3.7 已 经 加 入 了 对 VXLAN 协 议 的 支持 。 另 外 ， 除 了 本 节 介绍 的 VXLAN、NVGRE、STT 草 案 ， 一 个 由 IETF 工 作 组 提出 的 网 络 虚拟 化 革 
加 (NVO3) 草案 也 在 讨论 之 中 。 另 一 方面 ， 各 大 硬件 广 商 也 都 在 积极 参与 标准 的 制定 并 研发 支持 网 络 革 加 协议 的 网 络 产品 ， 这 些 都 在 推动 着 SDN 技 术 的 进步 。 


43 SDN 的 典型 实现 : OpenStack 中 的 网 络 组 件 Neutron 


OpenStack 是 由 美国 国家 航空 航天 局 和 Rackspace 合 作 研发 的 ， 以 Apache 许 可 证 授权 的 开放 源 代码 项 目 。OpenStack 是 一 个 云 平台 管理 的 项 目 ，OpenStack 的 目的 是 让 任何 人 都 可 以 自行 建立 和 提供 
laaS (基础 设施 即 服务 ) 。 此 外 ，OpenStack 也 用 作 建 立 防火 墙 内 的 “私有 云 ”， 提 供 机 构 或 企业 内 各 部 门 共享 资源 。 目 前 OpenStack 社 区 得 到 了 全 世界 众多 的 开发 人 员 和 知名 IT 公司 的 支持 ， 比 如 EMC、 
IBM、 微 软 、 思 科 等 。 


OpenStack 由 多 个 组 件 构成 ， 核 心 组 件 主要 有 身份 认证 (ldentity) 组 件 Keystone、 镜 像 存储 (Image) 组 件 Glance、 计 算 (Compute) 组 件 Nova、 网 络 服务 (Network) 组 件 Neutron、 仪 表盘 
(Dashboard) 组 件 Horizon、 块 存储 (Block Storage) 组 件 Cinder、 对 象 存储 (Object Storage) 组 件 Swift、 编 配 (Orchestration) 组 件 Heat 及 遥测 (Telemetry) 组 件 ceilometer。Openstack 的 实 
现 框架 如 图 4-23 所 示 。 
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图 4-23 OpenStack 实 现 框架 和 主要 组 件 


Neutron 组 件 是 OpenStack 在 Havana 版 本 中 被 重 命名 的 ， 在 之 前 的 Grizzly 版 本 中 ， 提 供 网 络 服务 的 组 件 名 为 Quantum。 在 Havana 中 ， 新 增加 了 FaaS (Firewall as a Service) 和 VPNaaSs (VPN as 
a Service) ， 实 现 了 L3-router 的 插件 ， 提 供 了 对 IVS 虚 拟 交 换 机 的 接口 支持 ， 并 首次 引入 了 M1L2 揪 件 。 


Neutron 的 设计 遵循 了 抽象 和 具体 的 原则 ， 采 用 了 模型 和 插件 的 设计 结构 来 实现 NaaS (网 络 即 服务 ) 。Neutron 的 抽象 意味 着 为 Naas 定 义 了 一 些 代表 抽象 网 络 元 素 的 “模型 ”。 例 如 ， 几 乎 所 有 的 云 
应 用 程序 都 部 署 在 IP 子 网 内 ， 并 代表 着 Openstack Neutron 的 网 络 或 者 子 网 模型 。 网 络 是 虚拟 的 本 地 局 域 网 (LAN) ， 你 可 以 添加 DHCP 和 域名 系统 (DNS) 服务 ， 以 提供 寻 址 和 定义 端口 /网 关 ， 然 后 将 
子 网 与 用 户 连 接 。 


Neutron 的 模型 转化 为 现实 网 络 行为 的 过 程 ， 是 通过 具体 的 插件 完成 的 ， 这 些 插 件 接受 管理 系统 的 命令 ， 然 后 执行 命令 ,最 后 创建 所 需 的 网 络 行为 。 这 些 插件 可 以 由 一 些 基 本 的 Linux bridge, Linux 
VLan, IP table 来 实现 ， 也 可 以 由 一 些 高 级 的 技术 来 实现 ， 比 如 Open vSwitch、Nicira NVP、OpenFlow 等 。 


Neutron 的 设计 结构 实现 了 基于 API 的 网 络 服 务 功能 (API-based Networking as a Service) 。Neutron 提 供 了 虚拟 网 络 、 子 网 、 端 口 、 路 由 、 防 火 墙 、VPN 抽 象 等 API 用 于 描述 网 络 资源 ， 并 通过 它 
们 向 其 他 组 件 或 服务 交付 网 络 服务 功能 ， 这 些 API 功 能 的 实现 则 依赖 于 具体 的 插件 来 完成 ， 在 引入 SDN 插 件 后 ，Neutron 已 经 成 为 了 一 个 典型 的 SDN 应 用 。 


4.3.1 Neutron 在 OpenStack 中 的 架构 


一 个 简单 的 Neutron 架 构 如 图 4-24 所 示 ，Neutron 服 务 主要 由 API 和 Plugin (插件 ) 两 部 分 构成 。APl 部 分 提供 了 面向 客户 端 (租户 或 者 其 他 组 件 ) 的 接口 ， 包 括 核心 API (General API) 和 扩展 
API (Extension API) ， 遵 循 Apache 协 议 ， 提 供 RESTful Web 服 务 ， 目 前 Neutron 提 供 了 丰 语 的 APl 来 满足 云 网 络 环境 的 需求 ， 包 括 基 本 的 网 络 、 子 网 、 端 口服 务 ， 也 包括 了 路 由 、 安 全 、 隔 离 、VPN 等 高 
级 服务 。 插 件 部 分 负责 完成 API 功 能 ， 揪 件 可 以 是 网 络 设备 商 提供 的 物理 交换 机 ， 也 可 以 是 部 署 在 计算 节点 上 的 虚拟 交换 机 。 目 前 Neutron 已 经 获得 了 很 多 开源 插件 和 商业 插件 的 支持 ， 比 如 OVs 插 件 、Ryu 
OpenFlow Controller 插 件 、NEC OpenFlow 揪 件 等 。 
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图 4-24 OpenStack Neutron 2844 


Neutron 的 工作 流程 可 以 由 图 4-25 所 示 的 创建 L2 网 络 的 简单 示例 来 描述 ， 用 户 (租户 或 者 其 他 应 用 程序 ) 通过 REST API 发 送 POST 请 求 为 用 户 创建 一 个 名 为 demo_net 的 L2 网 络 ，Neutron API 接 收 到 
请 求 后， 会 对 请 求 内 容 解 析 、 校 验 ， 对 用 户 身 份 进行 检查 ， 如 果 满 足 合法 条 件 ， 则 更 新 数据 库 并 调用 注册 的 插件 来 创建 一 个 具体 的 L2 网 络 ， 最 终 向 用 户 返 回 所 创建 的 网 络 ID。 在 这 个 过 程 中 ， 用 户 只 需要 关 
注 自身 的 业务 需求 来 定制 网 络 ， 具 体 的 网 络 实现 对 用 户 透 明 ， 真 正 实现 了 软件 定义 网 络 。 


labadmin8sclg93:-$ curl -i 

http://10.13.217.93:9696/v2.0/networks.json -X POST -H "X-Auth-Token: xxxxx" -H "Content-Type: application/json" -H "Accept: application/json" -H "User-Agent: python-neutroncli 
'("network": {"name": "demo net", "admin state up": true]]' 

HTTP/1.1 201 Created 

Content-Type: application/json; charset=UTF-8 

Content-Length: 235 

Date: Fri, 10 Jan 2014 06:28:29 GMT 

("network": {"status": "ACTIVE", "subnets": [], "name": "demo net", "admin state up": true, "tenant id": 

"3086bf£1de21144258dd2b529cfffab3f", "shared": false, "port security enabled": true, "id": "ec0cdd0c-a9f9-43ab-8e44-0813ff22dff9"]] 


Customer Neutron API 


Neutron Plugin 


POST/networks | 
| 


网 络 标识 (xyz) | 


> 验证 & 更 新 数据 库 | 
创建 网 络 


图 4-25 ”通过 Neutron 为 用 户 创建 子 网 demo_net 


Neutron 的 这 种 结构 同时 也 降低 了 其 自身 的 开发 难度 。 一 方面 ， 插 件 整 合 了 多 种 网 络 实现 方式 ， 用 于 满足 云 网 络 的 多 种 网 络 需求 ， 非 常 有 利于 Neutron 功 能 扩展 。 另 一 方面 ， 在 实际 开发 过 程 中 ， 插 件 
提供 商 ， 例 如 网 络 设备 供应 商 ， 只 需要 将 自己 的 SDN 控 制 器 变 为 Neutron 中 的 SDN 代 理 程序 ， 就 能 够 将 自己 的 解决 方案 整合 到 Neutron 框 架 中 ， 提 供 商 只 需要 关注 插件 本 身 的 功能 和 性 能 ， 有 利于 提高 交付 
的 能 力 。 


4.3.2 Neutron 在 OpenSstack 中 的 工作 机 制 


Neutron 服 务 在 OpenStack 的 实际 部 署 中 ， 需 要 由 分 布 在 多 个 节点 上 的 多 个 服务 来 协作 完成 ， 这 些 服务 如 图 4-26 所 示 ， 主 要 包括 : 


1) neutron-server， 一 个 由 Python 编写 的 守护 进程 ， 部 署 在 网 络 节点 上 ， 提 供 API 和 扩展 服务 ， 并 将 用 户 的 请 求 转发 到 相应 的 插件 进行 处 理 。neutron-server 需 要 数据 库 来 实现 数据 存储 ， 并 利用 消 
息 队 列 和 其 他 进程 通信 。 


2) 插件 代理 (Plugin Agent) ， 运 行 在 每 一 个 计算 节点 上 ， 完 成 对 本 地 的 虚拟 交换 机 的 配置 和 管理 ， 不 同 的 插件 有 不 同 的 代理 程序 ， 有 些 插件 不 需要 专门 的 插件 代理 。 
3) L3 代 理 (L3Agent) ， 为 租户 的 虚拟 机 提供 外 部 网 络 L3/NAT 转 发 功能 ， 不 同 的 插件 有 不 同 的 代理 程序 ， 有 些 插件 不 需要 L3 代 理 。 
4) DHCP 代 理 (DHCP Agent) ， 为 租户 的 网 络 提供 DHCP 服 务 ， 所 有 的 插件 都 需要 这 个 代理 。 


5) SDN 服 务 (SDN Service) ， 为 租户 的 网 络 提供 SDN 服 务 ， 通 过 REST API 或 者 其 他 方式 与 neutron-server 或 插件 代理 通信 。 


1 AL DAL 


— —— REST APUR AE ty 
E4-26 构成 Neutton 的 主要 服务 组 件 
Neutron 的 各 个 进程 之 间 通 信 依靠 消息 队列 方式 ， 目 前 RabbitMQ、Qpid、ZeroMQ 都 能 够 为 Openstack 的 进程 通信 提供 消息 队列 服务 ， 各 个 进程 启动 时 必须 通过 消息 队列 服务 器 庙 的 鉴 权 才能 通信 ， 
而 neutron-server 和 插件 代理 则 能 够 接收 SDN 服 务 程序 的 REST API 请 求 ， 完 成 API 转 发 或 处 理 的 功能 。 


4.3.3 Nicira NVP 插 件 


Nicira NVP (Network Virtualization Platform) 是 Nicira 公 司 基 于 OpenFlow 和 OpenvSwitch 创 建 的 网 络 虚 拟 化 平台 。Nicira NVP 通 过 在 物理 硬件 之 上 加 载 一 个 虚拟 网 络 平台 ， 重 建 虚拟 网 络 ， 不 需 
要 修改 物理 网 络 的 框架 和 拓扑 ， 也 不 需要 改变 原来 的 云 管理 系统 和 云 计算 资源 ， 比 如 系统 配置 、 运 用 程序 、 子 网 、IP 地 址 等 ， 使 网 络 的 控制 从 虚拟 网 络 从 网 络 硬件 中 脱离 出 来 。 同 时 ，NVP 提 供 了 对 虚拟 网 
络 的 强大 管理 和 控制 能 力 ， 丰 富 的 API 使 用 户 能 够 对 网 络 实现 按 需 定制 和 软件 定义 ， 可 视 化 的 基于 WEB 的 管理 工具 NVP Manager 为 用 户 提供 了 直观 而 友好 的 管理 调试 工具 ， 集 群 的 控制 器 保证 了 平台 的 高 可 
靠 性 ， 并 且 能 够 与 多 种 数据 中 心平 台 整 合 ， 例 如 VMware vSphere、OpenStack 等 ， 为 网 络 虚 拟 化 提供 了 完整 的 解决 方案 。 


2012 年 8 月 ， 全 球 虚 拟 化 和 云 基础 架构 领导 厂商 VMware 宣布 收购 Nicira， 交 易 金额 超过 12 亿 美元 ， 此 次 收购 提升 了 VMware SDN 产 品 ， 加 强 了 VMware 在 虚拟 化 和 数据 中 心 的 领导 地 位 ， 并 为 提出 软 
件 定义 数据 中 心 打 好 了 基础 。 


NVP 的 核心 架构 如 图 4-27 所 示 。 
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图 4-27  Nicira NVP 核 心 架 构 


架构 中 的 核心 组 成 部 分 是 


1) 控制 器 集群 (Nicira NVP Controller Cluster) 。NVP Controller 是 NVP 的 控制 层 ，NVP Controller 接 收 从 客户 端 发 送 过 来 的 NVP AP1， 处 理 后 通过 OpenFlow 或 其 他 接口 协议 控制 其 他 节点 。 


NVP 支 持 CMS ( 云 管理 系统 ) 接口 ， 如 北向 RESTful API1， 能 够 与 其 他 云 管理 平台 整合 。 
NVP 控 制 器 集群 是 一 个 分 布 式 系统 ， 运 行 在 一 组 x86 服 务 器 上 ， 集 群 提供 了 以 下 特性 : 
. 高 可 靠 性 ， 当 集群 中 的 一 个 节点 不 能 正常 工作 ， 集 群 仍 能 够 正常 提供 服务 。 
“ 可 扩展 性 ， 集 群 中 的 节点 能 够 根据 负载 的 需要 增加 或 者 减少 。 


2) Open vSwitch， 简 称 OVS， 是 NVP 在 数据 层 实 现 数据 转发 的 核心 部 件 。OVS 是 一 个 基于 软件 实现 的 虚拟 交换 机 ， 使 用 开源 Apache 2.0 许 可 协议 ， 主 要 实现 代码 为 可 移植 的 C 代 码 。 它 的 目的 是 让 大 
规模 网 络 自动 化 可 以 通过 编程 扩展 ， 同 时 仍然 支持 标准 的 管理 接口 和 协议 (例如 NetFlow、sFlow、SPAN、RSPAN、CLI、LACP、802.1ag) 。 此 外 ， 它 被 设计 为 支持 跨越 多 个 物理 服务 器 的 分 布 式 环境 ， 
类 似 于 VMware 的 vNetwork 分 布 式 vSwitch 或 Cisco Nexus 1000V。OVS 支 持 多 种 Linux 虚 拟 化 技术 ， 包 括 Xen/XenServer、KVM 和 VirtualBox， 提 供 了 对 OpenFlow 协 议 的 支持 ， 并 且 能 够 与 众多 的 开源 
虚拟 化 平台 相 整 合 。 


OVS 的 工作 原理 和 物理 交换 机 类 似 ， 在 其 实现 中 ， 两 端 分 别 连 接着 物理 网 卡 和 多 块 虚 拟 网 卡 ， 同 时 内 部 会 维护 一 张 映射 表 ， 根 据 MAC 地 址 寻找 对 应 的 虚拟 机 链 路 进而 完成 数据 转发 ， 实 现 一 个 和 二 层 物 
理 交换 机 相同 的 功能 。 


OVS 在 实现 中 分 为 用 户 空间 和 数据 空间 两 个 部 分 ， 用 户 空间 拥有 多 个 组 件 ， 最 主要 的 组 件 是 ovs-vswitchd 和 ovsdb-server， 前 者 实现 了 OpenFlow 交 换 机 的 核心 功能 ， 并 且 通 过 netlink 直 接 和 OVS 的 内 
核 模 块 进 行 通信 ， 这 使 得 OVS 支 持 集中 的 控制 器 对 其 进行 远程 管理 和 监控 ， 体 现 了 NVP 软 件 定义 网 络 的 核心 。ovs-vswitchd 还 会 将 交换 机 的 配置 、 数 据 流 信息 及 其 变化 保存 到 数据 库 ovsdb 中 ， 这 个 数据 库 
由 ovsdb-server 直 接管 理 。OVS 的 内 核 模块 openvswitch_mod 实 现 了 多 个 “数据 路 径 ” (类 似 于 网 桥 ) ， 用 于 实现 比 数据 空间 更 高 效率 的 数据 转发 功能 。 


OVS 的 软件 安装 包 中 包含 了 一 系列 的 管理 工具 ， 例 如 ovs-vsctl、ovs-ofctl、ovsdb-tool 等 ， 用 户 可 以 方面 地 利用 这 些 工具 进行 功能 管理 和 问题 调试 。 
在 NVP 的 部 署 环境 中 ， 每 个 Hypervisor 节 点 都 需要 安装 OVS， 使 该 节点 上 运行 的 虚拟 机 能 够 获得 逻辑 网 络 资源 。 


3) 南 向 接口 协议 。NVP 控 制 器 支持 两 种 南 向 接口 (如 图 4-28 所 示 ) ， 对 于 配置 信息 ，NVP 通 过 OVSDB 来 配置 OVS，RPC 通 信 协 议 用 SSL 加 密 确保 安全 。 控 制 器 需要 首先 获得 OVS 客 户 端的 安全 证 书 ， 
然后 由 OVS 发 起 通信 ， 注 册 NVP 控 制 器 集群 中 的 一 个 或 多 个 节点 来 作为 自己 的 OVS 控 制 器 。 对 于 网 络 数 据 流 的 配置 信息 ，NVP 通 过 OpenFlow 来 控制 OVS。 


图 4-28 NVP 的 南 向 接口 协议 


4) NVP Manager 是 一 个 基于 网 页 的 人 机 交互 工具 ， 提 供 虚 拟 网 络 资 源 的 查看 和 管理 功能 ， 比 如 查看 网 络 节 点 、 子 网 、IP、 端 口 、 路 由 、 日 志 等 ,或 增加 、 删 除 、 更 新 网 络 资源 。NVP Manager 还 能 
提供 故障 排查 的 功能 ， 用 户 或 者 开发 人 员 可 以 在 一 个 直观 的 界面 中 调试 网 络 的 联通 情况 ， 也 可 以 用 来 验证 命令 执行 的 结果 。 在 大 多 数 情况 下 ， 由 于 NVP Controller 能 够 执行 NVP API， 这 个 组 件 多 用 于 故障 
排查 的 功能 。 


5) 网 关 是 一 个 单独 安装 的 组 件 ， 属 于 NVP 的 数据 层 ，L2 网 关 能 够 桥接 逻辑 网 络 和 物理 网 络 ，L3 网 关 则 能 够 实现 虚拟 网 络 和 物理 网 络 之 间 的 路 由 功能 ， 租 户 可 以 利用 L3 网 关 将 数据 中 心 的 虚拟 网 络 和 外 
部 物理 网 络 实现 互通 ， 在 NVP 中 部 署 一 个 或 者 多 个 网 关节 点 ， 来 提高 服务 的 可 用 性 。 


6) 封装 协议 。NVP 通 过 网 络 封装 协议 来 保证 逻辑 网 络 在 物理 网 络 之 上 的 严 加 和 多 租户 网 络 之 间 逻 辑 网 络 的 隔离 ，NVP 支 持 多 种 封装 协议 ， 比 如 STT、GRE， 并 且 在 3.2 版 本 中 还 支持 VXLAN。 目 前 还 没 
有 对 NVGRE 的 支持 。 


7) NVP 服 务 节点 (Service Node) 是 一 个 可 选 的 部 件 。 当 采用 网 络 老 加 方式 实现 虚拟 网 络 时 ， 为 逻辑 网 络 的 组 播 、 广 播 和 一 些 未 知 单 播 提供 类 似 接力 的 服务 ， 例 如 包 的 复制 功能 ; 也 可 以 用 于 初始 化 
或 终结 Hypervisor 和 远程 Gateway 之 间 的 IPsec 隧道 。 在 实际 部 署 中 ， 为 了 提高 可 用 性 ， 可 以 部 署 多 个 NVP 服 务 节点 。 


8) 虚拟 机 。 运 行 在 Hypervisor 上 的 虚拟 机 是 NVP 的 应 用 程序 ， 虚 拟 机 运行 在 虚拟 网 络 里 ， 感 知 不 到 底层 的 物理 网 络 。 


NVP 通 过 插件 的 方式 和 Neutron 集 成 ， 如 图 4-29 所 示 ，Neutron 利 用 NVP 控 制 集群 提供 的 北向 接口 对 网 络 软件 定义 ，NVP 控 制 集群 通过 南 向 接口 对 安装 在 计算 节点 上 的 OV3 进 行 监控 ， 根 据 业 务 需 求 创 
建 独立 于 物理 网 络 的 虚拟 网 络 ， 网 关节 点 实现 虚拟 网 络 和 物理 网 络 的 转发 和 路 由 。 
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图 4-29 ”在 OpenStack 中 部 署 Nicira NVP4& fF 
4.3.4 小结 


应 用 层 直 接 面向 的 是 网 络 资源 的 用 户 ， 是 体现 SDN 价 值 的 关键 。 当 前 的 SDN 架 构 中 引入 支持 网 络 资 源 集中 化 控制 的 控制 器 及 其 开放 的 北向 接口 ， 推 动 了 上 层 应 用 对 网 络 资源 高 效 灵活 的 调配 。 同 时 上 层 
的 应 用 对 SDN 的 发 展 和 演进 有 着 积极 的 反馈 和 推动 作用 ，SDN 技 术 能 够 从 上 层 应 用 的 反馈 中 不 断 提高 和 创新 ， 满 足 更 多 网 络 场景 的 需求 。 


Openstack 作 为 当前 最 为 流行 的 云 平 台 ， 其 网 络 组 件 Neutron 作 为 一 个 典型 的 SDN 应 用 实例 ， 一 方面 证 明了 SDN 是 云 计 算 时代 的 网 络 帮 展 趋势 ， 另 一 方面 也 推动 了 SDN 技 术 和 SDN 生 态 圈 的 进步 。 


第 5 章 ” 目 动 化 资源 管理 


5.1 ”资源 管理 定义 


数据 中 心 的 资源 可 以 分 为 硬件 资源 和 软件 资源 。 硬 件 资源 包括 计算 、 网 络 、 存 储 、 设 施 设备 等 。 软 件 资源 包括 操作 系统 、 应 用 程序 、 中 间 件 等 。 数 据 中 心 资源 管理 是 指 对 硬件 资源 进行 集中 管理 ， 为 用 
户 提供 高 性 能 、 多 租户 、 可 扩展 的 服务 ， 并 且 对 所 提供 的 服务 提供 灵活 的 资源 分 配 和 调度 。 数 据 中 心 常 见 的 资源 管理 有 : 测量 、 审 计 、 报 表 以 及 分 析 管 理 ; 配置 、 发 现 、 修 复 以 及 验证 管理 等 ; 监控 资源 使 
用 及 其 有 效 性 ; 建立 服务 模板 以 及 配置 指导 ; 性 能 、 可 用 性 以 及 容量 规划 ; QoS. SLA, SLO. RESET. 


过 去 的 几 十 年 ， 数 据 中 心 的 资源 管理 方式 发 生 着 巨大 变化 ， 大 致 经 历 了 三 个 阶段 。 


第 一 阶段 ， 数 据 中 心 提供 的 服务 需要 大 量 特定 的 资源 作 支 持 。 由 于 各 种 服务 的 要 求 不 一 样 ， 所 以 其 需要 的 资源 也 不 一 样 。 例 如 针对 计算 快速 响应 需求 的 服务 ， 需 要 采购 CPU 速 度 快 且 内 存 容量 大 的 计算 
资源 。 这 些 资 源 购买 不 仅 耗 资 巨大 ， 而 且 日 常 资源 管理 也 相当 复杂 。 在 这 一 时 期 ， 资 源 管理 从 硬件 管理 到 软件 管理 均 是 “特制 ”的 ， 也 就 是 说 不 同 硬件 或 软件 均 需要 分 别管 理 ， 不 仅 耗 时 、 容 易 出 错 ， 而 且 
需要 大 量 的 专业 技术 背景 的 人 员 参 与。 由 于 这 一 阶段 中 数据 中 心 资源 管理 的 成 本 高 、 错 误 率 大 、 复 杂 度 高 ， 所 以 需要 统一 的 规范 接口 以 供 上 层 服 务 调用 ， 这 不 仅 可 以 为 采购 和 部 署 资源 节省 费用 ， 管 理 这 些 
资源 的 流程 也 可 以 简化 ， 节 省 时 间 。 更 重要 的 是 ， 统 一 的 规范 接口 可 以 提供 更 加 灵活 的 服务 。 


进入 第 二 阶段 ， 数 据 中 心 的 资源 被 “抽象 ”并 且 提 供 统一 的 接口 ， 这 些 被 抽象 的 资源 进一步 分 成 “资源 池 ” 为 服务 提供 高 效 灵活 的 资源 。 随 着 虚拟 化 技术 的 不 断 发 展 ， 不 同 的 资源 利用 虚拟 化 技术 进 
行 “抽象 ”分 别 进行 集中 的 管理 。 然 而 此 阶段 ， 不 同 资源 (计算 、 网 络 、 存 储 ) 不 仅 虚 拟 化 的 程度 不 平衡 而 且 管 理 的 自动 化 程度 不 高 ， 计 算 资 源 的 虚拟 化 技术 发 展 较 快 ， 而 网 络 和 存储 资源 的 虚拟 化 技术 发 


展 较 慢 。 因 此 ， 数 据 中 心 同 时 存在 第 一 阶段 的 未 虚拟 化 资源 以 及 高 度 虚 拟 化 资源 ， 而 针对 这 些 不 同 的 资源 所 提供 的 服务 ， 数 据 中 心 只 能 分 别提 供 管理 。 这 一 阶段 的 资源 管理 昌 然 减少 了 人 工 参与 工作 ， 但 是 
大 量 繁琐 的 配置 ， 特 别 是 针对 动态 服务 的 配置 仍然 给 管理 带 来 不 便 。 此 外 ， 虽 然 与 第 一 阶段 相 比 ， 特 定 的 服务 不 强制 购买 特定 的 硬件 资源 ， 然 而 对 给 定 的 服务 已 提供 的 资源 的 控制 是 静态 的 ， 除 非 经 过 繁琐 
的 资源 重新 分 配 ， 而 资源 的 重新 分 配 有 时 会 带 来 灾难 性 的 后 果 ， 如 资源 使 用 冲突 等 。 为 更 加 自动 且 高 效 地 管理 资源 ， 软 件 定义 数据 中 心 应 运 而 生 。 


数据 中 心 管理 的 第 三 阶段 是 基于 软件 定义 数据 中 心 。 它 继承 了 第 二 阶段 的 “资源 抽象 ”以 及 “资源 池 ”， 致 力 于 资源 管理 的 “自动 化 ”， 提 高 资源 管理 的 速度 ， 尽 可 能 地 减少 人 工 参与 。 在 这 一 阶段 ， 
随 着 计算 虚拟 化 、 网 络 虚 拟 化 、 存 储 虚 拟 化 的 快速 发 展 以 及 技术 的 成 熟 ， 软 件 定义 数据 中 心 的 实现 成 为 可 能 。 如 前 面 几 章 介绍 ， 硬 件 资源 的 抽象 和 接口 标准 化 ， 使 得 调用 硬件 资源 更 加 方便 和 灵活 。 此 外 ， 
资源 之 间 的 分 工 和 协作 更 加 清晰 。 首 先 各 种 资源 都 有 统一 的 控制 中 心 将 控制 流 与 数据 流 分 离 ， 使 得 调用 资源 只 需 与 控制 中 心 交 互 。 其 次 各 种 资源 之 间 的 调用 都 有 统一 的 接口 ， 使 得 资源 协作 更 加 高 效 。 而 高 
效 的 硬件 资源 管理 又 给 软件 的 管理 带 来 便利 ， 通 过 自动 并 高 效 配置 和 监控 软件 所 使 用 的 资源 ， 软 件 配置 和 管理 更 加 灵活 和 高 效 。 硬 件 和 软件 的 自动 化 管理 使 得 管理 者 可 以 根据 不 同 服务 进行 动态 配置 ， 并 根 
据 服 务 的 内 容 进行 调整 和 监控 。 而 此 时 的 服务 所 利用 的 资源 管理 是 透明 的 ， 不 需要 过 多 依赖 某 个 特定 的 资源 。 


与 传统 数据 中 心 管理 不 同 ， 软 件 定义 数据 中 心 资源 的 自动 化 管理 使 得 管理 员 可 以 更 加 灵活 高 效 地 分 配 、 控 制 并 管理 所 有 软件 定义 数据 中 心 的 资源 ， 从 而 为 跨 平 台 、 跨 数据 中 心 提供 高 效 、 安 全 、 可 靠 的 
服务 提供 了 有 力 支持 。 软 件 定义 数据 中 心 资源 管理 有 如 下 几 个 特点 : 


. 集中 管理 。 软 件 定义 数据 中 心 资源 管理 的 显著 好 处 是 资源 集中 管理 ， 传 统 数 据 中 心 组 件 之 间 功 能 的 混合 使 用 会 带 来 很 多 问题 ， 因 为 大 概 75% 的 问题 来 源 于 用 户 ， 而 用 户 如 果 没 有 统一 的 集中 管理 ， 屠 
么 会 给 监控 和 分 析 带 来 难以 克服 的 困难 。 


. 资源 使 用 效率 高 。 在 传统 的 数据 中 心 ， 资 源 是 不 共享 的 ， 即 使 在 菜 些 服务 停止 或 者 不 使 用 时 ， 资 源 也 仍然 分 配 和 使 用 。 有 资料 统计 ， 传 统 数据 中 心 大 约 只 有 30% 的 资源 被 合理 利用 ， 而 软件 定义 数据 
中 心 可 以 按 需 进行 资源 配置 和 管理 ， 因 此 大 大 提高 了 资源 的 利用 率 。 在 软件 定义 数据 中 心里 ， 资 源 利 用 率 达 到 70%。 


: 自动 化 管理 。 在 传统 的 数据 中 心 ， 由 于 资源 架构 的 异 构 性 和 复杂 性 ， 人 工 参 与 的 管理 办 法 低 效 且 易 错 ; 软件 定义 数据 中 心 可 以 减少 人 工 干 预 ， 从 而 防止 错误 的 发 生 ， 使 管理 员 更 加 关注 重要 的 策略 制 


软件 定义 数据 中 心 自动 化 管理 尽管 带 来 巨大 的 优势 ， 却 存在 巨大 的 挑战 ， 现 阶段 的 技术 仍 有 很 大 发 展 空间 。 软 件 定义 数据 中 心 资源 管理 面临 的 挑战 如 下 : 


虚拟 化 资源 的 管理 。 虚 拟 化 技术 带 来 便利 的 同时 ， 也 出 现 了 性 能 、 安 全 以 及 可 靠 性 等 新 间 题 。 从 软件 定义 数据 中 心 管理 员 的 角度 ， 虚 拟 化 技术 是 对 硬件 资源 的 一 种 抽象 ， 然 而 会 带 来 性 能 和 安全 瓶 
颈 。 一 方面 ， 异 构 资 源 的 整合 会 有 短 板 效应 ， 而 性 能 和 安全 “ 短 板 ”的 监控 和 动态 调整 向 管理 员 提 出 更 高 的 要 求 。 另 一 方面 ， 虚 拟 化 是 一 种 集中 控制 技术 ， 抽 象 层 由 软件 实现 ， 其 本 身 也 存在 性 能 和 安全 性 
的 问题 。 因 此 软件 定义 数据 中 心 需要 机 制 来 从 抽象 层 对 性 能 、 安 全 等 问题 提出 新 的 解决 办 法 。 


. 海量 分 布 数 据 的 管理 。 由 于 软件 定义 数据 中 心 的 可 扩展 性 及 跨 平 台 特 性 ， 数 据 中 心 的 数据 会 呈 指 数 级 增长 ， 原 先 适 用 于 传统 数据 中 心 的 数据 管理 技术 则 不 再 适用 。 例 如 传统 数据 中 心 数据 存储 的 物理 
地 址 确定 ， 而 软件 定义 数据 中 心 的 数据 则 分 布 式 存放 ， 不 仅 带 来 同步 等 分 布 式 系统 常见 的 问题 ， 且 由 于 数据 的 存放 地 址 不 国定 ， 会 带 来 隐私 和 性 能 的 问题 。 


. 自动 化 工具 的 管理 。 由 于 传统 的 数据 中 心 管理 软件 不 再 适用 于 软件 定义 数据 中 心 环境 ， 一 些 审计 、 监 控 、 部 署 软件 可 能 已 经 不 再 适用 ， 甚 至 一 些 常 用 的 应 用 软件 也 需要 修改 才能 在 软件 定义 数据 中 心 
发 生 功 效 。 例 如 传统 的 网 络 系统 监控 软件 安装 在 某 个 特定 的 系统 或 硬件 上 ， 而 要 将 这 些 软件 移植 到 软件 定义 数据 中 心 ， 则 需要 加 以 封装 或 者 修改 以 适应 新 的 环境 需求 。 


: 业务 或 服务 的 管理 。 业 务 管理 或 者 服务 管理 在 传统 的 数据 中 心里 相对 静态 和 单一 ， 因 为 其 使 用 的 资源 固定 ， 用 户 单 一 ， 而 软件 定义 数据 中 心 的 业务 和 服务 是 动态 且 多 元 的 。 首 先 资 源 的 动态 分 配 需要 
较 好 的 响应 和 管理 效率 。 其 次 ， 针 对 多 租户 的 服务 需要 考虑 多 租户 隔离 问题 。 


针对 软件 定义 数据 中 心 的 技术 挑战 ， 本 章 将 对 软件 定义 数据 中 心 的 管理 技术 进行 总 结 和 归纳 ， 从 以 下 六 节 进 行 前 述 。 首 先 ， 对 软件 定义 数据 中 心 的 管理 对 象 进行 总 结 和 归纳 ， 指 出 管理 对 象 的 特点 以 及 
需要 解决 的 问题 ， 详 见 ?.2 节 。 其 次 ， 针 对 软件 定义 数据 中 心 的 管理 对 象 ， 介 绍 常见 的 管理 方法 和 技术 ， 介 绍 每 种 技术 带 来 的 好 处 和 不 足 。 同 时 ， 结 合 这 些 技术 ， 介 绍 数据 中 心 通用 的 管理 部 件 及 其 所 使 用 的 
技术 和 达到 的 效果 ， 详 见 5.3 节 。 表 次 ， 针 对 重要 的 管理 部 件 一 一 “性 能 管理 ”和 “多 租户 管理 ”， 深 入 介绍 其 所 用 的 技术 以 及 原理 ， 详 见 5.4 及 5.5 节 。 最 后 通过 具体 的 产品 实现 介绍 软件 定义 数据 中 心 管理 
的 接口 及 典型 实现 ， 以 期 给 读者 一 个 整体 的 认识 和 理解 ， 详 见 5.6 及 5.7 节 。 


第 5 草 HJARRES 


5.1 资源 管理 定义 


数据 中 心 的 资源 可 以 分 为 硬件 资源 和 软件 资源 。 硬 件 资源 包括 计算 、 网 络 、 存 储 、 设 施 设备 等 。 软 件 资源 包括 操作 系统 、 应 用 程序 、 中 间 件 等 。 数 据 中 心 资源 管理 是 指 对 硬件 资源 进行 集中 管理 ， 为 用 
户 提供 高 性 能 、 多 租户 、 可 扩展 的 服务 ， 并 且 对 所 提供 的 服务 提供 灵活 的 资源 分 配 和 调度 。 数 据 中 心 常 见 的 资源 管理 有 : 测量 、 审 计 、 报 表 以 及 分 析 管 理 ; 配置 、 发 现 、 修 复 以 及 验证 管理 等 ; 监控 资源 使 
用 及 其 有 效 性 ; 建立 服务 模板 以 及 配置 指导 ; 性 能 、 可 用 性 以 及 容量 规划 ; QoS. SLA, SLO. RESET. 


过 去 的 几 十 年 ， 数 据 中 心 的 资源 管理 方式 发 生 着 巨大 变化 ， 大 致 经 历 了 三 个 阶段 。 


第 一 阶段 ， 数 据 中 心 提供 的 服务 需要 大 量 特定 的 资源 作 支 持 。 由 于 各 种 服务 的 要 求 不 一 样 ， 所 以 其 需要 的 资源 也 不 一 样 。 例 如 针对 计算 快速 响应 需求 的 服务 ， 需 要 采购 CPU 速 度 快 且 内 存 容量 大 的 计算 
资源 。 这 些 资 源 购买 不 仅 耗 资 巨大 ， 而 且 日 常 资 源 管理 也 相当 复杂 。 在 这 一 时 期 ， 资 源 管理 从 硬件 管理 到 软件 管理 均 是 “特制 ”的 ， 也 就 是 说 不 同 硬件 或 软件 均 需要 分 别管 理 ， 不 仅 耗 时 、 容 易 出 错 ， 而 且 
需要 大 量 的 专业 技术 背景 的 人 员 人 参与。 由 于 这 一 阶段 中 数据 中 心 资源 管理 的 成 本 高 、 错 误 率 大 、 复 杂 度 高 ， 所 以 需要 统一 的 规范 接口 以 供 上 层 服 务 调 用 ， 这 不 仅 可 以 为 采购 和 部 署 资源 节省 费用 ， 管 理 这 些 
资源 的 流程 也 可 以 简化 ， 节 省 时 间 。 更 重要 的 是 ， 统 一 的 规范 接口 可 以 提供 更 加 灵活 的 服务 。 


进入 第 二 阶段 ， 数 据 中 心 的 资源 被 “抽象 ”并 且 提 供 统一 的 接口 ， 这 些 被 抽象 的 资源 进一步 分 成 “资源 池 ” 为 服务 提供 高 效 灵活 的 资源 。 随 着 虚拟 化 技术 的 不 断 发展 ， 不 同 的 资源 利用 虚拟 化 技术 进 
行 “抽象 ”分 别 进行 集中 的 管理 。 然 而 此 阶段 ， 不 同 资源 (计算 、 网 络 、 存 储 ) 不 仅 虚 拟 化 的 程度 不 平衡 而 且 管 理 的 自动 化 程度 不 高 ， 计 算 资 源 的 虚拟 化 技术 发 展 较 快 ， 而 网 络 和 存储 资源 的 虚拟 化 技术 发 
展 较 慢 。 因 此 ， 数 据 中 心 同 时 存在 第 一 阶段 的 未 虚拟 化 资源 以 及 高 度 虚 拟 化 资源 ， 而 针对 这 些 不 同 的 资源 所 提供 的 服务 ， 数 据 中 心 只 能 分 别提 供 管理 。 这 一 阶段 的 资源 管理 昌 然 减少 了 人 工 参与 工作 ， 但 是 
大 量 繁琐 的 配置 ， 特 别 是 针对 动态 服务 的 配置 仍然 给 管理 带 来 不 便 。 此 外 ， 虽 然 与 第 一 阶段 相 比 ， 特 定 的 服务 不 强制 购买 特定 的 硬件 资源 ， 然 而 对 给 定 的 服务 已 提供 的 资源 的 控制 是 静态 的 ， 除 非 经 过 繁琐 
的 资源 重新 分 配 ， 而 资源 的 重新 分 配 有 时 会 带 来 灾难 性 的 后 果 ， 如 资源 使 用 冲突 等 。 为 更 加 自动 且 高 效 地 管理 资源 ， 软 件 定义 数据 中 心 应 运 而 生 。 


数据 中 心 管理 的 第 三 阶段 是 基于 软件 定义 数据 中 心 。 它 继承 了 第 二 阶段 的 “资源 抽象 ”以 及 “资源 池 ”， 致 力 于 资源 管理 的 “自动 化 ”， 提 高 资源 管理 的 速度 ， 尽 可 能 地 减少 人 工 参与 。 在 这 一 阶段 ， 
随 着 计算 虚拟 化 、 网 络 虚 拟 化 、 存 储 虚 拟 化 的 快速 发 展 以 及 技术 的 成 熟 ， 软 件 定义 数据 中 心 的 实现 成 为 可 能 。 如 前 面 几 章 介绍 ， 硬 件 资源 的 抽象 和 接口 标准 化 ， 使 得 调用 硬件 资源 更 加 方便 和 灵活 。 此 外 ， 
资源 之 间 的 分 工 和 协作 更 加 清晰 。 首 先 各 种 资源 都 有 统一 的 控制 中 心 将 控制 流 与 数据 流 分 离 ， 使 得 调用 资源 只 需 与 控制 中 心 交互 。 其 次 各 种 资源 之 间 的 调用 都 有 统一 的 接口 ， 使 得 资源 协作 更 加 高 效 。 而 高 
效 的 硬件 资源 管理 又 给 软件 的 管理 带 来 便利 ， 通 过 自动 并 高 效 配置 和 监控 软件 所 使 用 的 资源 ， 软 件 配置 和 管理 更 加 灵活 和 高 效 。 硬 件 和 软件 的 自动 化 管理 使 得 管理 者 可 以 根据 不 同 服务 进行 动态 配置 ， 并 根 
据 服 务 的 内 容 进行 调整 和 监控 。 而 此 时 的 服务 所 利用 的 资源 管理 是 透明 的 ， 不 需要 过 多 依赖 某 个 特定 的 资源 。 


与 传统 数据 中 心 管 理 不 同 ， 软 件 定义 数据 中 心 资源 的 自动 化 管理 使 得 管理 员 可 以 更 加 灵活 高 效 地 分 配 、 控 制 并 管理 所 有 软件 定义 数据 中 心 的 资源 ， 从 而 为 跨 平 台 、 跨 数据 中 心 提供 高 效 、 安 全 、 可 靠 的 
服务 提供 了 有 力 支持 。 软 件 定义 数据 中 心 资源 管理 有 如 下 几 个 特点 : 


集中 管理 。 软 件 定义 数据 中 心 资源 管理 的 显著 好 处 是 资源 集中 管理 ， 传 统 数据 中 心 组 件 之 间 功 能 的 混合 使 用 会 带 来 很 多 问题 ， 因 为 大 概 75% 的 问题 来 源 于 用 户 ， 而 用 户 如 果 没有 统一 的 集中 管理 ， 那 
么 会 给 监控 和 分 析 带 来 难以 克服 的 困难 。 


. 资源 使 用 效率 高 。 在 传统 的 数据 中 心 ， 资 源 是 不 共享 的 ， 即 使 在 某 些 服务 停止 或 者 不 使 用 时 ， 资 源 也 仍然 分 配 和 使 用 。 有 资料 统计 ， 传 统 数 据 中 心 大 约 只 有 30% 的 资源 被 合理 利用 ， 而 软件 定义 数据 
中 心 可 以 按 需 进行 资源 配置 和 管理 ， 因 此 大 大 提高 了 资源 的 利用 率 。 在 软件 定义 数据 中 心里 ， 资 源 利用 率 达 到 70%。 


: 自动 化 管理 。 在 传统 的 数据 中 心 ， 资源 架构 的 异 构 性 和 复杂 性 ， 人 工 参 与 的 管理 办 法 低 效 且 易 错 ; 软件 定义 数据 中 心 可 以 减少 人 工 干 预 ， 从 而 防止 错误 的 发 生 ， 使 管理 员 更 加 关注 重要 的 策略 制 


软件 定义 数据 中 心 自动 化 管理 尽管 带 来 巨大 的 优势 ， 却 存在 巨大 的 挑战 ， 现 阶段 的 技术 仍 有 很 大 发 展 空间 。 软 件 定义 数据 中 心 资源 管理 面临 的 挑战 如 下 : 


- 虚拟 化 资源 的 管理 。 虚 拟 化 技术 带 来 便利 的 同时 ， 也 出 现 了 性 能 、 安 全 以 及 可 靠 性 等 新 间 题 。 从 软件 定义 数据 中 心 管理 员 的 角度 ， 虚 拟 化 技术 是 对 硬件 资源 的 一 种 抽象 ， 然 而 会 带 来 性 能 和 安全 瓶 
颈 。 一 方面 ， 异 构 资 源 的 整合 会 有 短 板 效 应 ， 而 性 能 和 安全 “ 短 板 ” 的 监控 和 动态 调整 向 管理 员 提 出 更 高 的 要 求 。 另 一 方面 ， 虚 拟 化 是 一 种 集中 控制 技术 ， 抽 象 层 由 软件 实现 ， 其 本 身 也 存在 性 能 和 安全 性 
的 问题 。 因 此 软件 定义 数据 中 心 需要 机 制 来 从 抽象 层 对 性 能 、 安 全 等 问题 提出 新 的 解决 办 法 。 


. 海量 分 布 数据 的 管理 。 由 于 软件 定义 数据 中 心 的 可 扩展 性 及 跨 平台 特性 ， 数 据 中 心 的 数据 会 呈 指 数 级 增长 ， 原 先 适 用 于 传统 数据 中 心 的 数据 管理 技术 则 不 再 适用 。 例 如 传统 数据 中 心 数 据 存储 的 物理 
地 址 确定 ， 而 软件 定义 数据 中 心 的 数据 则 分 布 式 存放 ， 不 仅 带 来 同步 等 分 布 式 系统 常见 的 问题 ， 且 由 于 数据 的 存放 地 址 不 国定 ， 会 带 来 隐私 和 性 能 的 问题 。 


: 自动 化 工具 的 管理 。 由 于 传统 的 数据 中 心 管 理 软件 不 再 适用 于 软件 定义 数据 中 心 环 境 ， 一 些 审计 、 监 控 、 部 署 软件 可 能 已 经 不 再 适用 ， 甚 至 一 些 常用 的 应 用 软件 也 需要 修改 才能 在 软件 定义 数据 中 心 
发 生 功 效 。 例 如 传统 的 网 络 系统 监控 软件 安装 在 某 个 特定 的 系统 或 硬件 上 ， 而 要 将 这 些 软件 移植 到 软件 定义 数据 中 心 ， 则 需要 加 以 封装 或 者 修改 以 适应 新 的 环境 需求 。 


: 业务 或 服务 的 管理 。 业 务 管 理 或 者 服务 管理 在 传统 的 数据 中 心里 相对 静态 和 单一 ， 因 为 其 使 用 的 资源 固定 ， 用 户 单一 ， 而 软件 定义 数据 中 心 的 业务 和 服务 是 动态 且 多 元 的 。 首 先 资源 的 动态 分 配 需 要 
较 好 的 响应 和 管理 效率 。 其 次 ， 针 对 多 租户 的 服务 需要 考虑 多 租户 隔离 问题 。 


针对 软件 定义 数据 中 心 的 技术 挑战 ， 本 章 将 对 软件 定义 数据 中 心 的 管理 技术 进行 总 结 和 归纳 ， 从 以 下 六 节 进行 阐述 。 首 先 ， 对 软件 定义 数据 中 心 的 管理 对 象 进行 总 结 和 归纳 ， 指 出 管理 对 象 的 特点 以 及 
需要 解决 的 问题 ， 详 见 5.2 节 。 其 次 ， 针 对 软件 定义 数据 中 心 的 管理 对 象 ， 介 绍 常见 的 管理 方法 和 技术 ， 介 绍 每 种 技术 带 来 的 好 处 和 不 足 。 同 时 ， 结 合 这 些 技术 ， 介 绍 数据 中 心 通用 的 管理 部 件 及 其 所 使 用 的 
技术 和 达到 的 效果 ， 详 见 5.3 节 。 再 次 ， 针 对 重要 的 管理 部 件 一 “性 能 管理 ”和 “多 租户 管理 ”， 深 入 介绍 其 所 用 的 技术 以 及 原理 ， 详 见 5.4 及 5.5 节 。 最 后 通过 具体 的 产品 实现 介绍 软件 定义 数据 中 心 管 理 
的 接口 及 典型 实现 ， 以 期 给 读者 一 个 整体 的 认识 和 理解 ， 详 见 5.6 及 5.7 节 ， 


5.2 ”资源 管理 对 象 


在 软件 定义 数据 中 心 ， 资 源 管理 对 象 可 分 为 硬件 对 象 和 软件 对 象 。 硬 件 对 象 包 括 计算 、 存 储 、 网 络 和 其 他 设施 设备 。 软 件 对 象 包 括 操 作 系统 、 应 用 程序 、 中 间 件 等 。 针 对 这 些 对 象 ， 资 源 管理 的 目标 是 
提供 可 靠 性 高 、 安 全 性 高 、 性 能 好 的 服务 。 与 传统 的 数据 中 心 管理 的 资源 对 象 不 同 ， 软 件 定义 数据 中 心 管理 的 对 象 有 如 下 特点 : 


` 对 象 更 加 丰富 。 在 软件 定义 数据 中 心 ， 由 于 虚拟 化 技术 将 硬件 设备 抽象 为 软件 定义 的 设备 ， 因 此 在 软件 定义 数据 中 心 管理 时 会 出 现 虚 拟 化 设备 与 硬件 设备 并 存 的 情况 ， 而 传统 的 数据 中 心 仅仅 需要 管 
理 硬 件 设 备 ， 因 此 软件 定义 数据 中 心 管理 的 对 象 更 加 丰富 。 例 如 软件 定义 存储 对 存储 硬件 既 可 以 由 存储 虚拟 化 软件 管理 ， 也 可 以 直接 管理 。 软 件 定义 数据 中 心 婚 有 虚拟 化 的 存储 设备 又 有 硬件 存储 设备 。 


. 对 象 交互 性 多 。 在 传统 的 数据 中 心 ， 计 算 、 存 储 、 网 络 资源 对 象 往往 是 各 自 管理 的 ， 如 计算 资源 管理 与 网 络 资源 管理 分 别 在 不 同 的 硬件 平台 上 ， 而 且 管 理 时 相互 的 信息 不 能 直接 共享 ， 因 此 资源 对 象 
的 交互 性 不 多 。 而 在 软件 定义 数据 中 心 ， 由 于 管理 的 方法 很 灵活 ， 而 且 脱 离 了 具体 的 硬件 设备 ， 因 此 各 种 资源 的 管理 可 以 集中 在 一 起 ， 信 息 可 以 共享 并 且 相 互 配合 。 例 如 软件 定义 数据 中 心 要 增加 一 台 虚 拟 
机 并 接 入 某 个 虚拟 网 络 ， 这 时 计算 资源 管理 和 网 络 资源 管理 可 以 在 这 人 台 虚 拟 机 上 进行 ， 并 且 不 需要 像 传 统 的 数据 中 心 管理 一 样 ， 重 新 配置 交换 机 来 定义 网 络 。 这 样 不 仅 使 得 配置 和 管理 方便 ， 而 且 性 能 更 
好 、 安 全 性 更 高 。 


. 对 象 动态 性 强 。 在 传统 的 数据 中 心 ， 资 源 对 象 是 静态 分 配 和 管理 的 ， 而 软件 定义 数据 中 心 管理 的 资源 对 象 是 动态 的 ， 且 提供 的 服务 可 供用 户 灵 活 配 置 和 管理 。 这 要 求 对 象 能 够 自 适 应 地 接 入 软件 定义 
数据 中 心 ， 在 运行 时 可 以 动态 管理 和 分 配 ， 并 且 随 着 业务 服务 的 需要 能 够 自动 进行 资源 的 调配 ， 如 数据 迁移 等 。 


如 图 5-1 所 示 ， 资 源 管理 对 象 按照 软件 定义 存储 中 心 架构 可 以 分 为 如 下 几 个 层次 : 服务 管理 层 、 资 源 控 制 层 、 资 源 抽 象 层 、 物 理 资 源 层 。 


服务 管理 | laaS (服务 器 ) 、SaaS (应 月 
= € i) 
Th. PaaS (4k fF Eds) 


EUR TERIS WU. Ets GAGES QoS 


<—>| 虚拟 计算 (VM 、 虚 拟 网 络 


EUR HL A Iz | 
TRA A s (V-Switch) ， 虚 拟 存 储 


物理 资源 层 p 存储 、 网 络 、 计 算 


图 5-1 资源 管理 对 象 分 层 
物理 资源 层 主要 管理 硬件 设备 ， 包 括 存储 、 网 络 、 计 算 资 源 。 这 些 硬件 资源 对 用 户 是 透明 的 ， 被 资源 抽象 层 抽 象 ， 通 过 虚拟 接口 供用 户 使 用 。 具 体 为 : 
` 计算 资源 : CPU、 内 存 、I/O 等 。 
MARR: 路由器、 交换机、 防火墙、 网 络 链 路 、 网 络 接口 等 。 
“ 存储 资源 : 存储 产品 、 存 储 接口 等 。 


资源 抽象 层 主 要 管理 虚拟 设备 ， 包 括 虚 拟 计 算 资 源 、 虚 拟 网 络 资源 、 虚 拟人 存储 资源 。 这 些 资源 对 上 提供 虚拟 接口 供 资源 控制 层 和 服务 管理 层 使 用 ， 对 下 则 屏蔽 物理 资源 的 一 些 特性 ， 使 其 看 上 去 如 同一 
个 资源 。 


- 虚拟 计算 资源 : Virtual Machine、vCPU、Virtual Memory. Virtual I/O 等 。 
. 虚拟 网 络 资源 : V-switch、OVS、vLAN 等 。 
- 虚拟 存储 资源 : Virtual LUN、vSAN 等 。 
资源 控制 层 基 于 资源 抽象 层 提 供 的 虚拟 资源 ， 为 上 层 业 务 服务 提供 资源 调度 、 控 制 、 认 证 、Qos 等 功能 。 这 一 层 为 上 层 服务 提供 技术 保障 ， 确 保 服 务 的 可 靠 性 、 安 全 性 等 。 这 一 层 提供 的 功能 具体 为 : 
资源 认证 : 只 有 服务 允许 的 用 户 才能 访问 资源 ， 这 里 需要 管理 认证 对 象 和 对 象 权力 。 
资源 调度 : 由 于 服务 共享 资源 ， 要 根据 服务 请 求 的 优先 级 对 共享 的 资源 进行 调度 和 分 配 。 
. 资源 控制 : 资源 应 该 满足 SILA 的 要 求 ， 并 对 用 户 透 明 地 监控 和 分 析 资 源 使 用 情况 。 只 有 服务 提供 的 用 户 可 以 管理 其 所 分 配 的 资源 ， 并 采取 措施 保证 资源 使 用 的 可 靠 性 和 安全 性 。 
. 质量 管理 控制 : 资源 质量 管理 应 该 根据 业务 服务 的 控制 进行 质量 评估 和 分 析 ， 例 如 资源 的 利用 率 、 剩 余 容 量 、 安 全 状况 等 ， 并 采取 相应 措施 ， 如 资源 扩容 和 服务 恢 
服务 管理 层 为 软件 定义 数据 中 心 提 供 云 服 务 ， 包 含 Saas 应 用 服务 、Paas 平 台 服 务 、1aas 架 构 服 务 。 这 些 服务 内 容 具 体 包括 : 
. IaaS 架 构 服 务 : 服务 器 、 远 程 桌 面 等 。 


PaaS GR AR: 开发 和 测试 环境 等 。 


.SaaS 应 用 服务 : 数据 库 、 网 络 应 用 服务 、 全 服务 等 。 
服务 管理 层 、 资 源 控制 层 、 资 源 抽 象 层 及 物理 资源 层 构成 了 软件 定义 数据 中 心 管 理 对 象 的 四 个 不 同 层次 ， 这 四 层 紧 密 相连 且 相 互 协作 。 与 传统 的 数据 中 心 相 比 ， 软 件 定义 数据 中 心 管 理 面 临 如 下 挑战 : 


- 减少 运营 费用 。 一 方面 软件 定义 数据 中 心 要 求 投入 的 设备 减少 ， 且 人 工 的 操作 减少 ; 另 一 方面 软件 定义 数据 中 心 要 求 高 度 自 动 化 ， 且 不 能 牺牲 用 户 服务 。 


. 管理 的 复杂 度 增 大 。 由 于 虚拟 化 技术 的 发 展 ， 软 件 定义 数据 中 心 管理 对 象 增多 ， 管 理 对 象 的 层次 也 增多 ， 这 些 层次 不 仅 包 括 虚 拟 化 的 抽象 层 ， 而 且 包 括 这 些 抽 象 层 之 间 以 及 抽象 层 与 物理 层 之 间 的 交 


. 用 户 的 透明 化 管理 。 用 户 不 直接 操控 硬件 资源 ， 用 户 对 硬件 的 管理 和 监控 更 多 地 依赖 于 软件 定义 数据 中 心 的 管理 软件 。 因 此 对 软件 定义 数据 中 心 管理 的 性 能 以 及 安全 性 有 更 高 的 要 求 。 


- 快速 响应 和 修复 。 软 件 定义 数据 中 心 是 跨 平 台 且 跨 地 域 的 ， 因 此 服务 的 快速 问题 应 答 和 修复 难度 更 大 。 这 不 仅 要 求 有 更 强 的 灾 备 能 力 ， 数 据 迁 移 以 及 安全 响应 能 力 ， 而 且 需 要 在 技术 上 克服 不 同 平台 
和 不 同 地 域 的 性 能 瓶颈 。 


. 统一 管理 接口 。 软 件 定义 数据 中 心 需 要 对 不 同 的 服务 提供 标准 的 接口 ， 以 支持 可 扩展 、 灵 活 的 资源 配置 和 管理 。 
表 5-1 显 示 了 传统 数据 中 心 与 软件 定义 数据 中 心 管理 对 象 和 管理 方法 的 异同 。 


表 5-1 传统 数据 中 心 与 软件 定义 数据 中 心 管理 的 对 比 
软件 定义 数据 中 心 传统 数据 中 心 
物理 资源 Tees HE Hif. A E 
虚拟 资源 基本 无 虚拟 化 资源 


管理 对 象 大 人 ， 包 括 控 制 物理 资源 | 软件 资源 较 单 一 ,一 般 指 系 
| iens " —— 统 和 应 用 程序 
-接口 定义 的 业务 逻辑 ， — v-— 
业务 服务 资源 业务 单一 ， 定 义 复 杂 
数据 和 控制 对 象 天 系 数据 与 控制 对 象 分 离 数据 与 控制 对 象 不 分 离 
接口 不 统 
eis 资源 x n) iA 不 透明 
管理 方法 E 
AS 


5.3 ”资源 管理 策略 
5.3.1 ”资源 管理 一 般 性 评价 指标 和 标准 

资源 管理 策略 利用 了 前 几 章 介绍 的 网 络 、 存 储 、 计 算 管理 平台 的 一 些 接口 ， 故 不 再 重 述 其 实现 的 细节 。 本 节 需 要 说 明 的 是 ， 所 有 资源 作为 一 个 整体 ， 根 据 用 户 的 服务 请 求 ， 软 件 定义 数据 中 心 如 何 为 服 
务 提供 可 靠 、 安 全 、 灵 活 、 弹 性 以 及 自动 化 的 管理 。 

表 5-2 列 出 了 软件 定义 数据 中 心服 务 管理 的 主要 指标 及 其 评价 标准 ， 并 且 列 出 了 为 了 达到 这 些 指标 所 用 到 的 一 些 策略 。 


表 5-2 资源 管理 评价 指标 、 标 准 及 其 策略 


指 标 策略 
效 据 中 心 的 基础 BR 不 中 断 服 务 ， 包 | 服务 的 连续 时 间 长 (基本 不 中 | HA (S nf H TE) 
可 靠 性 | 括 硬件 的 正确 性 、 性 能 等 ; 数据 中 心 的 数 | 断 )， 响 应 时 间 (符合 SLA)， 服 务 | 集群 快照/ 恢复 ， 
据 访问 要 保证 正确 性 和 完整 性 完成 的 结果 (正确 )， 支 持 多 租户 多 租户 
数据 中 心 的 基础 设施 要 保证 服务 的 隔离 EM RKE, X dS 


有 sashes 基础 设施 访问 控制 串 ， 数 据 存 取 | 、 、 "uet 
安全 性 ”| 性 ， 不 受 攻 击 的 影响 ; AUD AS A HEUS S | a | : 访问 安全 ， 数 据 隐 
访问 控制 强 ， 且 不 汽 漏 
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1) 可 靠 性 : 可 靠 性 是 数据 中 心服 务 管理 的 一 项 重要 指标 ， 因 为 软件 定义 数据 中 心 无 论 是 在 公有 云 环 境 还 是 私有 云 环境 均 需 要 为 用 户 提供 可 靠 的 服务 。 可 靠 性 表现 在 两 个 方面 ， 一 方面 用 户 使 用 的 数据 中 
心 基础 设施 (硬件 、 软 件 及 环境 ) 能 够 提供 持续 、 稳 定 的 服务 ; 另 一 方面 用 户 存储 和 计算 的 数据 在 数据 中 心 要 保证 正确 性 和 完整 性 。 要 达到 可 靠 性 目标 ， 主 要 的 策略 有 : HA (高 可 用 性 ) 集群 ， 快 照 /恢复 
(Checkpoint/Recovery) 、 多 租户 (Multi-Tenancy) 。 


2) 安全 性 : 安全 性 是 数据 中 心 关注 的 最 复杂 也 是 最 困难 的 一 项 指标 ， 因 为 软件 定义 数据 中 心 层 级 关系 较 多 ， 管 理 对 象 也 复杂 多 变 ， 所 以 不 仅 需 要 提供 安全 可 靠 的 基础 设施 ， 而 且 要 保证 数据 存 取 和 计算 
的 安全 性 。 主 要 的 策略 有 : 架构 安全 、 数 据 访问 安全 、 数 据 隐私 保护 等 。 


3) 灵活 性 : 灵活 性 是 软件 定义 数据 中 心 与 传统 的 数据 中 心 的 本 质 区 别 之 一 。 软 件 定义 数据 中 心 将 控制 和 数据 管理 分 离 ， 因 此 控制 策略 更 加 灵活 ， 使 得 为 服务 提供 资源 分 配 时 可 以 动态 分 配 和 调用 资源 ， 
并 且 进 行 数据 动态 迁移 和 备份 。 主 要 的 策略 有 : 动态 迁移 (Live Migration) 、 精 简 配置 (Thin Provisioning) 等 。 


4) 弹性 : 弹性 是 软件 定义 数据 中 心 与 传统 的 数据 中 心 的 另 一 本 质 区 别 。 软 件 定义 数据 中 心 采 用 了 集中 化 资源 管理 和 资源 虚拟 化 ， 因 此 服务 所 需要 的 资源 可 以 按 需 进行 动态 分 配 和 调用 。 此 外 数据 中 心 产 
生 的 海量 数据 需要 大 数据 存储 和 计算 。 主 要 的 策略 有 : 动态 分 配 (Dynamic Allocation) 、 大 数据 存储 和 计算 (Big Data Storage and Computing) 。 


5) 自动 化 : 自动 化 是 软件 定义 数据 中 心 的 目标 。 无 论 是 资源 的 接 入 、 弛 载 ， 还 是 数据 计算 、 保 护 ， 存 储 都 需要 自动 化 。 主 要 的 策略 和 有: 监控 、 审 计 、 资 源 感知 。 


5.3.2 ”资源 管理 的 主要 策略 


1) 资源 感知 : 当 某 个 物理 设备 接 入 软件 定义 数据 中 心 ， 就 需要 被 数据 中 心 感知 。 资 源 感知 的 原理 是 采用 资源 管理 服务 器 与 设备 驱动 交互 的 方式 。 如 图 5-2 所 示 ， 当 某 个 物理 资源 加 载 或 者 卸载 时 ， 分 为 
以 下 几 步 : @ 设 备 驱 动 将 指令 、 设 备 信息 以 及 策略 信息 通过 高 速 消息 总 线 传 给 资源 管理 服务 器 ; @ 资 源 管理 服务 器 检查 指令 (加 载 /和 扼 载 ) ， 并 将 设备 信息 以 及 策略 信息 添加 或 删除 ，@ 资 源 管理 服务 器 定期 
轮 询 设备 的 资源 使 用 情况 ;，@ 资 源 管理 服务 器 提供 API 供 上 层 调 用 该 设备 。 


图 5-2 资源 自动 感知 


2) 监控 : 监控 包括 资源 监控 、 安 全 监控 、 性 能 监控 以 及 数据 监控 等 。 资 源 监控 是 指 对 所 管理 的 硬件 资源 进行 监控 ， 包 括 计算 、 网 络 、 存 储 。 监 控 的 内 容 包含 了 服务 所 关心 的 重要 流程 : 消息 管理 ;访问 
管理 ;分配 管理 ; 用 户 管理 ; 业务 管理 ; 故障 管理 等 。 不 同 的 软件 定义 数据 中 心 所 采用 的 方法 和 模块 工具 不 尽 相同 ， 以 Openstack 为 例 ， 资 源 管理 监控 模块 为 Horizon，Horizon 是 一 个 基于 Web 接 口 的 监 
控 模 块 ， 它 连接 了 计算 管理 模块 Nova、 人 存储 管理 模块 Cinder、 网 络 模块 Quantum 以 及 访问 控制 模块 KeyStone， 提 供 了 API 供 用 户 监控 资源 时 使 用 。 这 样 用 户 可 以 基于 这 些 API 对 资源 进行 监控 。 


3) 审计 : 审计 是 在 资源 监控 基础 上 ， 对 资源 和 数据 的 使 用 状况 及 其 状态 进行 汇总 和 记录 ， 并 产生 报表 ， 以 供用 户 日 后 进行 故障 排除 以 及 动态 性 能 调整 时 使 用 。 常 见 的 审计 对 象 分 为 数据 中 心 架构 和 数据 
言 息 。 数 据 审计 的 方法 有 : 数据 的 有 效 性 ， 数 据 产生 的 类 型 和 质量 及 其 产生 的 数据 流 依赖 关系 ; 数据 风险 ， 根 据 数据 管理 的 函数 或 结构 类 型 ， 对 数据 的 操作 进行 分 析 ; 数据 访问 及 重用 ， 对 数据 访问 进行 记 
录 ， 并 分 析 可 重用 数据 。 架 构 的 审计 方法 有 : 系统 日 志 ， 记 录 系 统 运行 日 志 ; 环境 配置 ， 记 录 环 境 配 置信 息 ; 访问 控制 ， 对 用 户 登录 和 资源 使 用 等 进行 访问 控制 |。 


4) HA (高 可 用 性 ) 集群 : 高 可 用 性 集群 方法 主要 为 了 防止 服务 器 设备 的 故障 (如 网 络 、 存 储 连 接 断 开 ) 。 在 数据 中 心里 增加 一 个 stand-by 的 备用 节点 ， 当 主 用 节点 突然 出 现 故障 ， 可 使 用 备用 节点 保 
证 数据 服务 的 连续 性 。 图 5-3 是 典型 的 两 节点 的 高 可 用 性 集群 。 在 正常 服务 处 理 用 户 请 求 时 ， 仪 有 一 个 服务 器 处 于 激活 状态 。 高 可 用 性 集群 实现 方法 可 以 不 同 。 例 如 根据 存储 设备 共享 不 同 ， 可 以 分 为 : OF 
用 镜像 存储 的 集群 。 在 集群 中 创建 镜像 存储 ， 每 个 节点 不 仅 写 其 对 应 的 人 存储， 而 且 写 其 他 节点 上 的 镜像 存储 。@) 不 共享 的 集群 ， 在 任意 时 刻 ， 仅 有 一 个 节点 拥有 存储。 当前 节点 出 现 故障 时 ， 另 一 个 节点 开 
始 使 用 存储 。 典 型 的 例子 包括 1BM High Availability Cluster Multiprocessing (HACMP) 以 及 Microsoft Cluster Server (MSCS) 。@ 共 享 存储 ， 所 有 的 节点 都 访问 相同 的 存储 ， 建 立 锁 机 制 来 保护 竞争 
条 件 以 及 防止 数据 损坏 。 典 型 的 例子 包括 1BM Mainframe Sysplex Techology 以 及 Oracle Real Application Cluster, 
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图 5-3 ”高 可 用 性 集群 


5) 快照 /恢复 。 软 件 定义 数据 中 心 利用 虚拟 化 的 资源 提供 服务 ， 而 快照 信息 可 以 帮助 记录 节点 的 状态 。 当 节点 发 生 故 障 时 ， 可 以 利用 先前 保存 的 快照 ， 选 择 回 退 点 ， 并 恢复 正确 状态 。 保 存 快照 的 对 象 
既 可 以 是 计算 节点 ， 也 可 以 是 网 络 设备 或 存储 节点 。 由 于 在 软件 定义 数据 中 心 ， 所 有 的 对 象 都 是 虚拟 对 象 ， 因 此 大 部 分 的 对 象 快照 可 以 是 虚拟 机 快照 (计算 虚拟 机 、 人 存储 虚拟 机 、 网 络 设备 虚拟 机 ) 。 设 定 
快照 的 间隔 时 间 ， 连 续 地 保存 快照 。 当 发 生 错误 时 ， 选 择 合适 的 快照 进行 恢复 。 常 见 的 虚拟 机 平台 Xen、KVM、VMware 都 有 快照 功能 


能 。 而 选择 合适 的 回 退 点 是 一 个 较 难 的 问题 ， 选 择 的 回 退 点 不 能 离 故 障 
点 远 ， 又 要 保证 恢复 后 状态 正确 。 近 几 年 出 现 了 一 些 较 新 的 回 退 工具 ， 包 括 Flashback、DIRA 等 。 


6) 数据 访问 安全 及 数据 隐私 保护 。 软 件 定义 数据 中 心 的 架构 分 为 计算 、 存 储 和 网 络 。 计 算 节 点 的 安全 保护 包括 系统 安全 和 软件 安全 ， 进 一 步 又 分 为 漏洞 攻击 防御 和 恶意 代码 阻止 。 网 络 安全 包括 网 络 协 
议 安全 性 ， 如 SSL 密 钥 保护 、 网 络 包 重 放 攻 击 防 御 、 拒 绝 服 务 攻击 防御 等 ， 特 别 在 软件 定义 的 网 络 中 ， 控 制 节点 定义 的 规则 及 策略 的 完整 性 保护 是 一 个 新 问题 。 而 存储 安全 包括 存储 系统 的 安全 、 连 接 安 全 以 


及 数据 安全 。 在 软件 定义 数据 中 心 ， 用 户 的 数据 都 存放 在 云端 ， 如 何 保证 用 户 数据 的 隐私 也 是 一 个 重要 的 课题 。 越 来 越 多 的 厂商 开始 关注 这 一 问题 ， 然 而 目前 还 没有 一 个 全 面 的 解决 办 法 。 已 有 的 方法 包括 
数字 水 印 、 数 据 模糊 (加 噪声 ) 、 数 据 加 密 等 。 


7) 负载 均衡 。 软 件 定义 数据 中 心 共享 硬件 资源 ， 对 用 户 而 言 是 一 个 “无 限 ”的 资源 池 ， 然 而 管理 的 资源 对 象 却 是 一 个 “有 限 ”的 资源 池 。 因 此 对 于 每 个 节点 的 服务 请 求 ， 要 根据 资源 使 用 的 需求 合理 分 
配 资源 。 目 前 有 不 同 的 负载 均衡 方法 。 以 AWS (Amazon Web Service) 上 的 负载 均衡 为 例 ， 可 以 分 为 : 循环 轮 奉 (Round Robin) DNS， 把 同一 个 域名 对 应 不 同 的 IP， 客 户 端 将 实现 IP 轮 换 ， 当 访问 某 个 
DNS 时 ， 选 择 排 在 第 一 位 的 IP 进 行 访问 ;软件 负载 平衡 ， 如 Apache、LVS (Linux Virtual Server) 等 ; 弹性 负载 平衡 (Elastic Load Balancing, ELB) ， 其 特点 是 可 以 做 多 个 所 在 地 的 负载 平衡 ， 如 图 5-4 
所 示 ，ELB 会 使 用 负载 平衡 器 ， 它 可 以 把 服务 请 求 分 派 给 不 同 地 区 的 Amazon EC2 虚 拟 机 。 


图 5-4 AWS 负载 均衡 器 示意 图 


8) 精简 配置 。 精 简 配 置 主要 用 于 软件 定义 数据 中 心 的 存储 资源 分 配 。 利 用 虚拟 化 技术 ， 对 用 户 服务 所 需要 的 存储 物理 资源 分 配 时 ， 提 供 满足 用 户 服务 所 需 的 存储 资源 ， 而 实际 分 配 的 资源 等 于 用 户 服务 
实际 使 用 的 资源 。 例 如 在 用 户 服务 需要 150GB 存 储 ， 而 当前 实际 使 用 10GB 时 ， 精 简 配 置 给 用 户 的 存储 视图 是 150GB， 但 实际 存储 资源 配给 为 10GB。 精 简 配 置 的 优势 是 按 需 动态 分 配 资源 ， 以 最 大 化 地 利用 
存储 资源 。 特 别 是 软件 定义 数据 中 心 集中 管理 存储 资源 时 ， 精 简 配 置 可 以 帮助 管理 者 有 效 管理 有 限 的 资源 上 且 提 供 良 好 的 资源 扩展 性 。 目 前 的 一 些 虚 拟 化 平台 如 VMware 的 vsphere 已 经 提供 了 精简 配置 技 
^. 


9) 动态 迁移 。 动 态 迁 移 主 要 用 于 软件 定义 数据 中 心 的 计算 资源 和 存储 资源 ， 其 对 象 包括 虚拟 机 和 存储 的 数据 ， 一 般 用 于 性 能 或 安全 性 考虑 ， 例 如 负载 均衡 、 灾 备 等 。 动 态 迁 移 已 经 被 一 些 常 见 的 虚拟 化 
平台 使 用 ,包括 VMware 的 v Motion、KVM 的 Live Migration。 总 体 来 说 ， 动 态 迁移 可 以 分 为 两 种 技术 : 前 拷贝 (Pre-Copy) 和 后 拷贝 (Post-Copy) 。 前 拷贝 技术 是 将 虚拟 机 或 者 数据 当前 的 快照 全 部 从 
源 端 拷贝 到 目的 端 ， 再 利用 COW (Copy-On-Write) 技术 将 更 新 的 数据 拷贝 到 目的 端 。 后 拷贝 技术 是 将 虚拟 机 或 者 数据 的 主要 部 分 (保证 服务 正常 运行 ) 先 从 源 端 拷贝 到 目的 端 ， 在 目的 端 使 用 数据 时 ， 
对 未 传递 的 数据 向 源 端 索要 。 前 拷贝 的 优势 是 速度 较 快 ， 但 在 一 开始 快照 传输 时 对 服务 暂停 操作 时 间 较 长 ;而 后 拷贝 的 优势 是 一 开始 主要 数据 传输 对 服务 暂停 操作 时 间 较 短 ， 但 整体 的 速度 较 慢 ， 因 为 后 续 
使 用 数据 时 对 缺失 的 数据 要 向 源 端 索要 。 


10) 大 数据 存储 和 计算 。 在 软件 定义 数据 中 心 ， 大 数据 存储 和 计算 变 得 越 来 越 重 要 。 资 源 的 配置 和 管理 自动 化 程度 越 高 ， 产 生 的 管理 数据 越 多 ; 如 图 5-5 所 示 ， 各 层 管理 对 象 均 产 生 大 量 的 数据 ;软件 
定义 数据 中 心 的 动态 特性 使 得 需要 更 加 细 粒 度 的 管理 ， 而 细 粒 度 的 管理 需要 更 多 的 数据 分 析 ， 这 些 数据 分 析 是 跨 域 且 跨 平台 的 。 大 数据 分 析 工 具有 Splunk、VMware、New Relic, The Pivotal Initiative, 
CloudPhysics, AppNeta, Boundary, 


软件 定义 数据 中 心 的 管理 


应 用 程序 性 能 管理 


基础 洒 构 性 能 管理 


数据 保护 


图 5-5 ”大 数据 存储 分 析 与 软件 定义 数据 中 心 管理 


54 ”多 租户 管理 


软件 定义 数据 中 心 将 计算 、 网 络 、 存 储 资源 进行 了 统一 的 管理 ， 为 用 户 提供 按 需 、 
` 在 统一 的 资源 池上 提供 快速 的 租户 分 配 和 管理 ， 可 以 弹性 地 获得 资源 对 象 ， 且 资 
C 基于 共享 资源 池 和 服务 类 型 的 有 效 且 灵活 的 负载 部 署 。 

. 为 每 个 租户 提供 可 扩展 且 灵 活 的 企业 级 工作 流 ， 支 持 成 百 上 千 的 虚拟 机 服务 。 
良好 的 工作 流 移 动 性 和 灾难 恢复 能 力 。 

- 在 服务 层 框架 进行 模块 化 地 创建 、 监 控 以 及 删除 租户 。 

然而 ， 软 件 定义 数据 中 心 在 提供 多 租户 管理 时 ， 也 存在 如 下 的 挑战 : 


. 多 租户 隔离 。 与 传统 的 数据 中 心 不 同 ， 软 件 定义 数据 中 心 为 租户 提供 服务 时 共享 资 


多 租户 的 服务 ， 并 提供 服务 的 质量 保证 。 相 比 于 传统 的 数据 中 心 ， 软 件 定 义 数 据 中 心 提 供 多 租户 服务 有 以 下 优势 : 


源 配 置 和 管理 能 力 高 。 


资源， 需要 保证 服务 对 用 户 的 透明 性 。 


多 租户 安全 。 与 传统 的 数据 中 心 不 同 ， 软 件 定义 数据 中 心 管理 了 用 户 的 资源 、 数 据 等 一 切 信 息 ， 且 提供 的 服务 类 别 和 服务 要 求 也 不 同 ， 需 要 保证 多 租户 服务 安全 


- 多 租户 性 能 。 与 传统 的 数据 中 心 不 同 ， 软 件 定义 数据 中 心 提供 服务 管理 时 不 仅 要 对 资源 进行 合理 配置 ， 避 免 由 于 资源 竞争 引起 的 性 能 不 足 ， 而 且 需 要 根据 租户 服务 要 求 进行 合理 的 负载 均衡 ， 以 满足 
服务 质量 
- 多 租户 可 靠 性 。 软 件 定义 数据 中 心 不 仅 需要 利用 传统 的 数据 中 心 使 用 的 可 靠 性 方法 ， 如 灾 备 和 主动 恢 ， 也 需要 能 实现 每 个 租户 空间 内 部 的 运行 时 计算 状态 和 持久 数据 的 保护 。 


多 租户 管理 。 根 据 资 源 对 象 划 分 ， 多 租户 管理 包括 计算 多 租户 管理 、 网 络 多 租户 管理 、 存 储 多 租户 管理 ， 以 及 上 层 的 应 用 服务 多 租户 管理 。 图 5-6 为 软件 定义 数据 中 心 多 租户 管理 的 示意 图 。 


资源 管理 和 负载 均衡 


图 5-6 ”软件 定义 数据 中 心 多 租户 管理 


54.1 ”网络 多 租户 管理 


软件 定义 数据 中 心 的 网 络 多 租户 管理 是 将 物理 网 络 划分 为 逻辑 上 隔离 的 子 网 络 。 网 络 隔离 可 以 利用 VLAN、 (Virtual Routing Forwarding, VRF) 完成 。 网 络 多 租户 管理 要 求 隔离 和 控制 功能 对 用 户 透 
明 ， 即 用 户 只 需要 关注 自己 的 服务 和 业务 逻辑 ， 而 不 需要 对 数据 的 安全 和 完整 性 进行 特定 的 操作 ， 而 其 他 共享 网 络 设备 的 用 户 也 不 能 窃取 和 影响 该 用 户 的 网 络 数据 和 操作 。 除 网 络 数据 的 隔离 外 ， 对 某 个 子 
网 而 言 ， 网 络 组 件 (如 交换 机 、 路 由 器 ) 也 需要 逻辑 隔离 。 除 数据 和 网 络 组 件 隔离 外 ， 还 需要 根据 SLA (Service-Level Agreement) 对 用 户 的 QoS (Quality of Service) 以 及 安全 提供 支持 。 下 面 简单 介 
绍 网 络 多 租户 管理 的 策略 。 


软件 定义 数据 中 心 的 网 络 隔离 大 致 有 以 下 3 种 方法 。@ 针 对 某 台 特定 服务 器 上 的 某 个 应 用 程序 的 网 络 隔离 是 利用 服务 器 上 的 物理 端口 。 通 过 指定 应 用 服务 的 特定 端口 ， 隔 离 与 该 应 用 服务 无 关 的 数据 。@) 
利用 虚拟 交换 机 (vSwitch) ， 例 如 思科 的 Nexus 1000V 或 者 开源 虚拟 交换 机 (Open vSwitch) 。 与 物理 交换 机 类 似 ，vSwitch 可 以 将 所 有 相关 的 虚拟 机 连接 到 一 个 逻辑 虚拟 交换 机 上 。 虚 拟 交换 机 的 优势 
是 可 以 与 软件 定义 数据 中 心 使 用 的 虚拟 机 、 软 件 定义 网 络 等 技术 相 结 合 ， 缺 点 是 性 能 与 物理 交换 机 相 比 较 低 。@ 使 用 VLAN 在 软件 定义 数据 中 心 划分 网 络 。 通 过 在 物理 交换 机 上 配置 VLAN 以 及 在 虚拟 交换 机 
上 打开 802.1Q VLAN tagging， 可 以 在 物理 机 和 虚拟 机 之 间隔 离 网 络 。 其 缺陷 是 最 大 VLAN 数 目 为 4096 个 。 


软件 定义 数据 中 心 利用 以 上 网 络 隔离 技术 进行 网 络 数据 包 的 隔离 与 转发 ， 然 而 不 同 的 应 用 有 不 同 的 上 下 文 ， 而 软件 定义 数据 中 心 越 来 越 关 心 应 用 服务 内 容 ， 因 此 不 仅 需 要 对 网 络 包 的 转发 进行 隔离 ， 而 

需要 对 服务 的 性 能 和 安全 进行 特殊 的 隔离 。 而 进行 性 能 和 安全 隔离 的 基础 是 需要 分 析 和 理解 网 络 包 的 进入 和 转 出 ， 并 理解 应 用 服务 的 特点 和 需求 。 例 如 根据 应 用 服务 的 延迟 和 带宽 需求 ， 软 件 定义 数据 中 

心 可 以 动态 调整 网 络 配置 以 满足 该 需求 。 在 以 应 用 服务 为 中 心 的 数据 中 心 ， 根 据 各 个 应 用 服务 不 同 的 需求 ， 对 其 进行 适当 的 网 络 隔 离 与 安全 保证 。 目 前 ， 网 络 制造 商 正 进行 产品 的 开发 ， 使 其 具备 识别 应 用 
服务 的 能 力 ， 而 虚拟 化 厂商 也 在 研发 相应 的 虚拟 产品 ， 如 VMware 的 virtual chassis。 


542 ”计算 多 租户 管理 


软件 数据 中 心 的 计算 资源 包括 内 存 、CPU 以 及 一 些 I/O 设 备 。 这 些 资 源 在 分 配给 租户 时 进行 不 同 程度 的 隔离 。 一 般 而 言 ， 物 理 资源 的 隔离 性 较 好 ， 而 虚拟 资源 的 多 租户 管理 需要 额外 的 软件 支持 。 如 今 一 
些 知名 的 虚拟 化 产品 如 VMware、Xen、KVM 都 对 虚拟 资源 的 划分 采用 了 隔离 和 调度 机 制 ， 如 对 虚拟 机 内 存 的 分 配 ， 采 用 影子 页 表 (Shadow Page Table) 技术 ， 而 采用 合适 的 调度 算法 ， 可 以 使 得 用 户 透 
明 地 使 用 计算 资源 ， 不 出 现 饥饿 等 待 、 死 锁 等 问题 。 然 而 ， 共 用 计算 资源 时 ， 如 果 隔 离 机 制 不 完善 ， 会 出 现 性 能 或 者 安全 问题 。 例 如 ， 研 究 人 员 发 现在 共享 内 存 或 者 /O 设 备 的 虚拟 机 之 间 人 存在 隐 通 道 ， 甚 至 
利用 底层 VM M 的 漏洞 可 以 绕 过 隔离 机 制 直接 影响 或 者 自 改 其 他 租户 的 信息 和 数据 。 为 了 防止 这 一 问题 ， 一 方面 需要 在 底层 VMM 上 增加 更 多 的 隔离 保护 以 及 安全 审查 ， 如 HyperSafe 可 以 对 虚拟 机 的 数据 和 
代码 进行 完整 性 检查 ， 另 一 方面 可 以 采用 Nested VMM 机 制 ， 将 VMM 作 为 客户 机 运行 在 Nested VMM 上 ， 以 有 效 阻止 多 租户 管理 时 的 性 能 和 安全 漏洞 ， 如 CloudVisor。 


54.3 ”存储 多 租户 管理 


存储 多 租户 管理 关注 四 个 方面 : 安全 隔离 、 服 务 保证 、 可 用 性 、 易 管理 。 


安全 隔离 的 目标 是 使 得 租户 不 能 访问 其 他 租户 的 数据 。 使 用 的 方法 包括 数据 隔离 、 地 址 空间 隔离 。 不 同 的 存储 产品 采用 的 策略 不 同 。 一 般 而 言 ， 数 据 隔离 采用 灵活 的 RAID 和 volume 配 置 ， 使 得 租户 服 
务 被 分 配 特定 的 LUN 以 及 存储 资源 池 (Storage Pool) ; 地址 空间 隔离 是 指 不 同 租户 的 存储 所 存放 数据 的 物理 空间 不 重合 。 软 件 定义 数据 中 心 有 时 采用 IP 地 址 来 确定 对 象 存 储 的 位 置 ， 然 而 IP 地 址 不 能 确保 
全 局 唯一 性 ， 存 在 潜在 冲突 的 可 能 ， 因 此 需要 在 存储 产品 中 保证 IP 地 址 的 唯一 性 。 


服务 保证 是 指 对 每 个 租户 的 服务 要 求 提供 保证 ， 确 保 其 存储 使 用 的 一 致 性 和 可 靠 性 。 由 于 共享 的 存储 资源 本 身 对 服务 需求 是 未 知 的 ， 因 此 存储 多 租户 管理 需要 服务 质量 控制 (QoS Control) 。 例 如 
EMC 的 存储 CLARIiION 为 资源 进行 服务 级 的 多 租户 管理 器 : Unisphere Quality of Service Manager (UQM) 。 该 软件 为 高 优先 级 的 应 用 设置 性 能 目标 ， 为 低 优 先 级 的 应 用 设置 限制 ， 并 且 基 于 预先 定义 的 
时 刻 表 (Pre-Defined Time-Table) 进行 调度 ， 调 度 策略 包括 : 响应 时 间 、 带 宽 、 香 吐 量 。UQM 通 过 用 户 接口 修改 该 调度 策略 。 


可 用 性 是 指 软件 定义 数据 中 心 对 存储 资源 提供 高 可 用 性 的 保证 。 高 可 用 性 系统 被 设计 成 全 元 余 且 没有 单 点 故障 ， 它 具有 以 下 特点 : 双 端 口 驱动 、 宛 余 FC loops、 电 池 备 份 镜像 写 缓存 (Write 
Cache) 、 双 SP、Asymmetrical Logical Unit Access (ALUA) 、 存 储 双 路 径 等 。 


从 软件 定义 数据 中 心 管理 员 的 角度 来 说 易 管理 是 指 操作 简单 ， 而 从 租户 的 角度 来 说 易 管理 是 指 接口 交互 性 好 。 管 理 员 可 以 管理 数据 中 心 存储 (如 NAS、SAN 等 ) 的 各 个 层面 ， 同 时 可 以 为 每 个 租户 提供 
管理 服务 。 而 租户 也 可 以 通过 接口 对 其 使 用 的 存储 资源 进行 查询 、 使 用 、 审 计 等 。 


软件 定义 数据 中 心性 能 管理 的 主要 工作 包括 : 定期 收集 基础 设施 和 应 用 程序 的 Qos 度 量 指标 及 能 耗 ， 分 析 性 能 瓶 绒 和 能 耗 问 题 ， 采 取 合 理 的 措施 降低 拥塞 并 解决 能 耗 问 题 。 


1) 定期 收集 基础 设施 和 应 用 程序 的 QoS 度量 指 标 以 及 能 耗 信息 。 信 息 收集 过 程 分 为 基础 设施 性 能 信息 的 采集 和 应 用 程序 性 能 信息 的 采集 。 对 于 基础 设施 性 能 信息 采集 ， 其 内 容 包 括 计算 资源 (如 CPU、 
内 存 使 用 ) 、 网 络 资源 (如 带宽 、 响 应 时 间 等 ) 、 存 储 资源 (如 存储 容量 、 人 存储 速度 等 ) ; 对 于 应 用 程序 性 能 信息 采集 ， 其 内 容 包括 应 用 程序 使 用 资源 情况 和 服务 质量 提供 情况 。 例 如 对 于 网 络 资源 而 言 ， 
性 能 管理 的 目标 既 包括 网 络 基础 设施 (如 路 由 器 、 交 换 机 、 网 卡 等 ) 的 吞吐 量 、 带 宽 、 延 迟 、 响 应 时 间 ， 也 包括 APM (Application Performance Mangement) ， 即 对 应 用 服务 进行 QoS 信息 采集 ， 如 服 
务 的 连接 成 功率 、 网 络 包 丢失 率 等 。 这 些 信息 为 后 面 的 性 能 分 析 提 供 依据 。 信 息 采 集 器 有 许多 商业 化 可 用 的 工具 。 例 如 Cisco NetQoS 对 网 络 进行 流量 监控 ,搜集 器 捕捉 和 存储 通过 网 络 SPAN 端 口 所 捕捉 到 
的 网 络 流量 ， 且 生成 端 到 端 应 用 程序 性 能 报告 。 

2) 分 析 性 能 瓶颈 和 能 耗 问 题 。 根 据 信息 采集 器 搜集 的 信息 进行 加 工整 理 ， 并 制定 规则 来 匹配 影响 性 能 的 参数 指标 。 常 见 的 性 能 指标 如 表 5-3 所 示 。 这 些 指标 可 以 经 过 加 工整 理 得 到 一 些 额外 的 指标 ， 如 
最 大 传输 速率 、 平 均 存 储 容量 等 。 同 时 ， 需 要 利用 指标 制定 一 些 反 映 性 能 的 规则 ， 这 些 规则 可 以 反映 当前 系统 的 性 能 问题 ， 如 容量 问题 、 读 写 速 率 问题 等 


45-9 ”性 能 指标 


性 能 指标 
byte (GB) 
计算 资源 % 
IOPS 
仔 储 资源 pyte THD 
bps (bits per second) 
bps (bits per second) 
网 络 资源 pps (packets per second ) 


吧 应 时 间 rtt (round trip time ) 


3) 采取 合理 的 措施 降低 拥塞 并 解决 能 耗 问题 。 根 据 性 能 问题 分 析 结 果 ， 我 们 需要 采取 措施 对 性 能 进行 改善 。 常 用 的 方法 在 5.3 节 已 经 介绍 ， 包 括 动态 迁移 、 负 载 均衡 等 。 由 于 虚拟 化 技术 和 硬件 技术 不 
断 发 展 ， 如 SSD 性 能 远 高 于 HDD， 因 此 也 可 以 通过 虚拟 化 技术 或 者 蔡 换 新 型 的 硬件 对 性 能 进行 改善 。 现 如 今 ， 提 高 性 能 的 方法 不 再 仅仅 是 提高 硬件 资源 的 性 能 或 者 扩充 容量 ， 因 为 这 些 措施 不 仅 人 花费 大 ， 而 
且 有 时 也 不 能 解决 服务 的 性 能 问题 。 因 此 ， 硬 件 和 软件 相 结合 从 而 共同 解决 性 能 问题 是 发 展 的 趋势 。 在 软件 定义 数据 中 心 ， 由 于 虚拟 化 技术 对 资源 进行 了 集中 管理 和 利用 ， 因 此 性 能 管理 有 时 需要 结合 虚拟 
化 技术 进行 合理 的 资源 分 配 和 管理 。 下 面 以 存储 的 性 能 管理 为 例 。 传 统 的 存储 性 能 出 现 问 题 ， 往 往 从 硬件 的 扩容 着 手 ， 例 如 要 提高 SAN (Storage Area Network) 的 能 力 ， 传 统 的 做 法 是 购买 速度 更 快 的 
磁盘 或 者 处 理 器 ; 而 现在 较为 先进 的 做 法 是 使 用 闪存 管理 器 (Flash Hypervisor) ， 所 谓 闪 存 管理 器 ， 就 是 将 服务 器 端 所 有 的 Flash 设 备 集中 管理 起 来 ， 并 且 透 明 地 向 服务 提供 快速 读 写 能 力 ， 这 样 合理 地 利 
用 了 当前 的 资源 ， 而 不 用 购买 新 的 设备 ， 节 约 了 开支 。 图 5-7 是 内 存 管理 器 结构 示意 图 。 


VM 


存储 性 能 | 闪存 管理 器 


存储 容量 | 数据 服务 器 


图 5-7 “闪存 管理 器 结构 示意 图 


下 面 以 软件 定义 数据 中 心 vCloud 的 性 能 管理 为 例 进行 详细 的 介绍 。vCloud 性 能 管理 框架 如 图 5-8 所 示 。 和 总 体 来 说 ， 信 息 收 集 的 对 象 有 : 事件 、 故 障 以 及 问题 。 信 息 采 集 的 方式 分 为 全 自动 与 交互 式 。 全 
自动 是 指 信息 采集 的 流程 不 需要 人 工 参 与 ， 人 交互 式 则 需要 人 工 的 交互 。 采 集 的 信息 推送 给 性 能 分 析 功 能 组 件 ， 包 括 三 级 分 析 。 第 一 级 监控 采集 的 信息 ， 根 据 预先 定义 好 的 规则 来 处 理 信息 ， 包 括 自动 产生 信 
息 的 报表 且 自 动 触发 预先 定义 好 的 响应 措施 ;第 二 级 根据 一 些 特定 的 技术 背景 知识 来 处 理 消息 ， 并 触发 响应 措施 ;第 三 级 根据 一 些 深层 、 专 业 级 的 分 析 发 现 深层 次 的 问题 ， 并 且 创 新 性 地 制定 响应 策略 ， 并 


触发 响应 。 

如 图 5-8 所 示 ， 如 果 收 集 的 信息 存在 性 能 问题 ， 并 且 该 问题 是 已 知 问题 ， 则 采用 全 自动 方法 进行 处 理 ; 若 该 问题 是 新 间 题 ， 则 进行 深入 的 分 析 和 处 理 ， 这 些 处 理 可 以 是 利用 背景 知识 解决 ， 也 可 以 是 需 
专业 分 析 解 决 。 下 面 介 绍 vCloud 分 析 和 解决 性 能 问题 的 步骤 。 

. 租户 的 性 能 问题 。 当 租户 的 容量 被 超 负 荷 使 用 时 ， 根 据 租赁 合同 ， 如 果 租 户 购买 了 自动 扩展 功能 ， 人 额外 的 资源 将 会 被 自动 分 配给 租户 。 如 果 租 户 没 有 购买 ， 那 么 应 该 有 消息 通知 租户 容量 已 满 。 

. 数据 中 心 的 性 能 问题 。 当 数据 中 心 提供 的 资源 出 现 性 能 问题 时 ， 数 据 中 心 应 该 通知 管理 员 更 换 设 备 或 者 合理 调度 负载 ， 使 其 满足 SLA 要 求 。 


- 硬件 和 软件 故障 。 数 据 中 心 应 该 做 好 灾 备 工作 ， 防 止 硬件 或 者 软件 发 生 故 障 时 出 现 数据 丢失 等 无 法 挽回 的 现象 。 男 一 方面 应 该 及 时 通知 厂商 修理 或 更 换 硬件 设备 ,修复 软件 。 
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图 5-8 vCloud 性 能 管理 框架 


图 5-9 说 明了 当 发 生 无 法 自动 处 理 的 性 能 问题 时 ，vCloud 采 取 的 分 析 和 处 理 措施 。 
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图 5-9 vvCloud 性 能 分 析 流 程 〈 发 生 无 法 自动 处 理 的 性 能 问题 时 ) 


图 5-10 显 示 了 当 分 析出 性 能 问题 时 vCloud 采 取 的 应 对 措施 。 根 据 问 题 分 析 结 果 ， 采 取 不 同 的 应 对 措施 。 如 果 能 找到 性 能 问题 的 根源 ， 且 能 够 找到 解决 办 法 ， 那 么 可 以 选取 合适 的 方法 来 修复 根源 。 如 果 
找 不 到 性 能 问题 的 根源 或 者 找 不 到 解决 办 法 ， 可 以 采取 一 些 积极 的 应 对 措施 。 例 如 ， 企 业 关键 绩效 指标 (Key Performance Indicator, KPI) 可 以 帮助 在 性 能 产生 问题 的 开始 阶段 采取 应 对 措施 ， 而 避免 出 
现 更 大 问题 。 
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图 5-10 ”vCloud 性 能 分 析 流 程 (分 析出 性 能 问题 时 ) 


5.6 ”对 外 服务 接口 


本 节 将 以 面向 云 计 算 的 软件 定义 数据 中 心 为 背景 ， 从 云 计 算 服务 的 一 个 参考 架构 设计 出 发 ， 讨 论 对 外 服务 接口 及 相关 的 资源 管理 概念 。 架构 来 源 于 分 布 式 管理 特别 工作 组 (Distributed 
Management Task Force, DMTF!']) 的 云 管 理 架构 白皮书 。 


首先 ， 我 们 将 介绍 DMTF 所 制定 的 云 管理 参考 架构 ( 见 图 5-11) 。 在 该 架构 中 ， 云 服务 提供 者 接口 (Cloud Service Provider Interface，CSP 接 口 ) 提供 了 对 服务 管理 器 (Service Manager) 、 安 全 
管理 器 (Security Manager) 和 服务 目录 (Service Catalog) 的 访问 入 口 。 这 些 入 口 点 用 来 提供 对 包括 虚拟 机 、 存 储 卷 、 网 络 和 应 用 在 内 的 多 种 服务 对 象 的 交互 操作 ， 同 时 也 提供 了 用 于 获取 审计 报告 及 
其 他 在 云 基础 架构 管理 所 需 活动 的 入 口 。 
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图 5-11 DMTF 云 管理 参考 架构 
服务 管理 器 的 主要 任务 是 管理 服务 控制 、 监 控 和 报表 。 出 于 安全 的 考虑 ， 通 常 来 说 这 些 功 能 的 访问 会 使 用 基于 角色 的 访问 控制 ， 而 这 部 分 的 安全 控制 是 由 架构 中 的 安全 管理 器 来 负责 的 。 


除 此 之 外 服务 管理 器 还 负责 对 约束 (Constraint) 、 规 则 (Rule) 和 策略 (Policy) 的 管理 。 这 一 类 对 象 是 云 环境 资源 管理 的 重要 依据 之 一 ， 它 们 的 内 容 通 过 服务 接口 管理 ， 并 由 云 基础 架构 的 具体 实 
现实 施 。 举 例 来 说 ， 其 中 的 策略 对 象 可 以 是 Service-Level Agreement (SLA) 或 Service-Level Objective (SLO) 、 部 署 约束 、 数 据 放置 约束 以 及 安全 约束 等 。 约 束 通常 描述 的 是 安全 控制 ， 比 如 访问 控 
制 、 网 络 安全 策略 以 及 作用 范围 。 这 些 约束 、 规 则 和 策略 会 成 为 服务 目录 中 所 列 的 服务 提供 的 一 部 分 ， 也 会 成 为 服务 模板 经 实例 化 后 产生 的 服务 实例 的 一 部 分 。 当 然 ， 在 服务 实例 的 整个 生命 周期 中 ， 也 多 
许 服务 请 求 者 对 部 分 约束 、 规 则 和 策略 进行 修改 。 相 应 的 ， 底 层 的 云 基 础 设施 会 根据 这 些 变动 在 资源 分 配 和 调度 上 进行 调整 ， 以 满足 新 的 需求 ， 而 这 些 具体 的 调整 方法 是 外 部 接口 之 外 的 ， 属 于 云 基础 设施 
中 的 “ 黑 盒 ”实现 。 


2. 云 服务 生命 周期 


云 服务 生命 周期 见 图 5-12， 数 据 中 心中 的 资源 管理 活动 同 服务 生命 周期 中 的 不 同 阶段 紧密 关联 。 


一 => — => 


创建 服务 模板 ， 更 创建 服务 供应 ， 更 建立 关系 ， 管 理 关系 ， 
相关 用 例 : 。 新 服务 模板 ， 删 除 服 新 服务 供应 ， 删 除 服 建立 服务 协议 ， 更 新 服务 


务 模板 务 供应 


Qt ceo 一 
终止 服务 协议 ,终止 监控 服务 资源 ， 消 交付 资源 ， 部 署 服务 模 
协议 计 费 


图 5-12 ARAL or AAA 


云 服务 的 整个 生命 周期 可 以 划分 为 以 下 几 个 阶段 : 

- 模板 (Template) ”由 开发 者 在 模板 中 定义 服务 的 内 容 和 接口 。 

- 供应 (Offering) — 服务 提供 者 在 模板 的 基础 上 加 入 服务 相关 的 各 种 约束 、 策 略 和 费用 方案 ， 并 以 此 提供 给 服务 消费 者 作为 可 用 的 服务 请 求 。 

: 合约 (Contract) 服务 提供 者 和 消费 者 之 间 达 成 合约 ， 合 约 包含 了 双方 在 费用 、SLO 以 及 其 他 一 些 方面 所 形成 的 协议 。 

. 交付 服务 ”服务 提供 者 依据 合约 部 署 服 务实 例 。 

| 运行 时 维护 (Runtime Maintenance) ”服务 提供 者 负责 管理 已 部 署 的 服务 及 所 有 相关 资源 ， 对 资源 进行 监控 并 在 资源 发 生 重 要 变更 时 及 时 通知 服务 消费 者 。 
. 服务 终结 (End of Service) 服务 提供 者 停止 菜 个 服务 实例 ， 回 收 相关 资源 以 便 重新 用 于 其 他 服务 实例 。 
数据 中 心中 的 资源 管理 将 紧密 围绕 以 上 服务 生命 周期 的 各 个 阶段 ， 这 些 管 理 活动 包括 资源 的 容量 规划 、 资 源 配置 、 资 源 调 度 分 配 、 资 源 监控 以 及 资源 回收 等 。 

3. 资 源 模型 


作为 对 外 服务 接口 的 核心 ， 资 源 模 型 是 数据 中 心 提供 云 服务 的 资源 抽象 ， 它 独立 于 用 于 访问 这 些 模型 中 所 定义 元 素 的 具体 协议 。 对 于 云 基础 设施 的 管理 ，DMTF 提 出 了 Cloud Infrastructure 
Management Interface (CIMI) 标准 。 同 其 他 的 标准 化 工作 一 样 ，CIMI 的 制定 旨 在 通过 推动 标准 化 接口 实现 服务 消费 者 在 多 个 服务 提供 者 之 间 的 互 操作 性 。 具 体 来 说 ， 在 资源 模型 方面 ，CIMI 共 定义 了 
云 基础 设施 管理 相关 的 58 种 资源 ， 归 纳 为 以 下 几 类 : 


` 云 入 口 点 (Cloud Entry Point) 用 于 发 现 环境 中 所 有 资源 的 起 始点 。 

- 机 器 资源 (Machine Resource) 计算 设施 相关 的 资源 。 

- 卷 资源 (Volume Resource) 存储 设施 相关 的 资源 。 

- 网 络 资源 (Network Resource) 网 络 设施 相关 的 资源 。 

- 系统 资源 (System Resource) 由 计算 、 存 储 和 网 络 资源 通过 聚合 关系 构成 。 
- 监控 资源 (Monitoring Resource) 计量 和 资源 事件 通知 相关 的 资源 。 


此 外 ， 作 为 软件 定义 数据 中 心 的 关键 技术 ， 虚 拟 化 在 数据 中 心 的 应 用 中 起 到 了 提高 资源 利用 率 和 降低 运行 成 本 的 作用 ， 同 时 它 也 给 数据 中 心 的 资源 管理 提出 了 新 的 挑战 。 除 了 数量 众多 的 物理 设备 ， 管 
理 员 还 必须 管理 大 量 的 虚拟 设备 以 及 它们 之 间 的 关联 、 与 物理 对 象 的 映射 关系 。 为 此 ， 虚 拟 化 相关 元 素 及 关联 关系 也 不 可 避免 地 被 引入 到 资源 模型 的 定义 中 。 针 对 虚拟 化 环境 中 的 管理 复杂 性 ，DMTF 也 提 
出 了 相应 的 管理 标准 ， 即 Virtualization MANagement (VMAN) 。 通 过 标准 化 的 定义 ，VMAN 提 供 了 一 致 的 虚拟 系统 及 相关 物理 资源 的 发 现 、 配 置 、 管 理 和 监控 方法 ， 包 括 : 


- 系统 发 现 和 库存 管理 。 为 了 更 为 有 效 地 管理 数据 中 心中 的 复杂 环境 ， 系统 管理 员 需 要 掌握 一 个 对 系统 及 其 中 组 件 准确 而 全 面 的 视图 。 因 为 DMTF 的 相关 标准 定义 了 虚拟 对 答 如 虚拟 机 及 其 相关 属性 发 
现 机 制 的 标准 ， 所 以 可 以 由 管理 软件 自动 完成 数据 中 心中 虚拟 对 象 的 发 现 和 库存 管理 。 而 DMTIF 同 时 也 定义 了 发 现 物理 系统 及 其 属性 的 相关 标准 
利用 自动 化 的 方式 得 到 同时 包含 物理 对 象 和 虚拟 对 象 的 全 局 视图 。 


SMASH， 通 过 结合 使 用 这 两 类 标准 ， 系 统管 理 员 就 可 以 


生命 周期 管理 。DMIF 标 准 涉及 了 对 虚拟 系统 管控 的 方方面面 ， 具 体 对 虚拟 机 来 说 ， 包 含 了 对 和 象 的 创建 、 修 改 、 挂 起 、 快 照 建立 及 监控 。 


. 监控 和 诊断 。 虚 拟 化 增加 了 系统 监控 和 诊断 的 复杂 度 ， 这 里 的 监控 包括 对 物理 资源 和 虚拟 资源 的 检测 、 变 动 跟踪 ， 以 及 对 运行 健康 状态 和 性 能 的 监测 。 在 虚拟 环境 中 ， 当 有 问题 发 生 时 ， 诊 断 过 程 又 
需要 考虑 虚拟 资源 同 它 所 依附 的 物理 资源 的 关联 关系 。 


综 上 所 述 ， 我 们 以 PDMTF 的 相关 标准 为 例 ， 概 要 地 介绍 了 在 云 管理 场景 中 的 架构 设计 、 服 务 的 对 外 接口 、 接 口 所 暴露 的 资源 模型 以 及 涉及 资源 管理 的 服务 生命 周期 等 重要 概念 。 除 此 之 外 ， 还 需要 其 他 
一 些 相关 工作 ， 比 如 定义 交互 协议 和 安全 机 制 等 元 素 ， 这 样 才能 完成 服务 消费 者 同 服务 提供 者 之 间 的 交互 的 完整 设计 。 


[1] DMTF 是 一 个 致力 于 制定 系统 管理 标准 ， 促 进 系 统管 理解 决 方案 可 交互 性 的 具有 业界 影响 力 的 组 织 。 


5.7 ”资源 管理 典型 实现 


本 节 将 以 VCloud 为 例 ， 介 绍 其 实现 资源 管理 的 具体 方式 。 对 于 vCloud 中 的 资源 管理 ， 我 们 将 从 两 个 层次 进行 介绍 。 一 个 是 vsphere， 也 就 是 在 主机 和 集群 的 层次 上 对 于 物理 资源 的 管理 。 另 一 个 是 在 
vsphere 之 上 ， 为 了 更 好 地 满足 云 计 算 多 租户 环境 下 的 资源 管理 ， 由 vCloud Director 建 立 的 资源 管理 相关 的 逻辑 抽象 层 。 


1. 资 源 管理 的 对 象 
在 基于 VMWare vSphere 虚 拟 化 技术 的 环境 中 ， 虚 拟 机 是 资源 的 用 户 ， 而 资源 的 来 源 可 以 是 计算 主机 、 计 算 集群 以 及 数据 存储 集群 。 


首先 ， 资 源 来 自 于 被 管理 的 设备 ， 比 如 计算 资源 来 自 于 计算 机 主机 ， 包 括 主 机 的 全 部 CPU 和 内 存 。 而 在 虚拟 化 环境 下 ， 用 户 实际 所 能 使 用 的 资源 还 需要 在 主机 硬件 规格 的 基础 上 减 去 虚拟 化 本 身 所 消耗 
的 资源 。 


此 外 ，vCenter Server 支 持 将 多 个 主机 添加 到 集群 并 进行 统一 管理 。 集 群 被 认为 拥有 所 属 主 机 的 全 部 CPU 和 内 存 ， 它 也 是 物理 资源 的 提供 方 和 资源 管理 的 对 象 。 除 此 之 外 ， 数 据 存储 集群 (Datastore 
Cluster) 也 是 由 vCenter Server 统 一 管理 的 数据 存储 资源 ， 通 过 启用 存储 的 分 布 式 资 源 调度 ， 数 据 存 储 集群 可 以 实现 |/O 负 载 和 空间 利用 的 均衡 。 


2. 资 源 管理 目标 


资源 管理 是 将 资源 从 资源 提供 方 分 配 到 资源 使 用 方 的 过 程 。 在 实际 部 署 环 境 中 ， 往 往 会 出 现 资源 过 载 的 情况 ， 也 就 是 说 ， 资 源 的 实际 容量 要 小 于 当前 用 户 需 求 ， 这 就 产生 了 对 资源 进行 管理 的 需求 。 另 
外 ， 随 着 时 间 的 推移 ， 资 源 容量 与 资源 需求 也 会 不 断 变化 ， 这 也 需要 通过 资源 管理 动态 地 重新 分 配 资源 ， 以 便 更 高 效 地 使 用 可 用 容量 。 


除了 解决 资源 过 载 问题 ， 资 源 管理 还 包括 以 下 目标 : 
性 能 隔离 ”防止 虚拟 机 独占 资源 并 确保 可 预测 的 服务 率 。 
. 有 效 利用 “充分 利用 未 过 载 的 资源 ， 并 在 资源 过 载 的 情况 下 实现 性 能 由 高 到 低 的 平滑 过 渡 。 


-EEDE 控制 虚拟 机 的 相对 重要 性 ， 提 供 灵 活 的 动态 分 配 ， 并 确保 符合 SLA (服务 水 平 协议 ) 。 


3.vSphere 资 源 管理 


对 于 虚拟 机 ，vSphere 提 供 了 以 下 多 种 资源 分 配 设置 来 确定 其 可 以 使 用 的 物理 CPU、 内 存 以 及 存储 的 资源 : 


: 资源 分 配 份 额 (Resource Allocation Share) 份额 用 于 指定 虚拟 机 的 相对 重要 性 。 如 果菜 个 虚拟 机 的 资源 份额 是 另 一 个 虚拟 机 的 两 售 ， 那 么 在 这 两 个 虚拟 机 争 用 资源 时 ， 第 一 个 虚拟 机 有 权 分 配 到 
两 倍 于 第 二 个 虚拟 机 的 资源 。 通 常 ， 份 额 被 指定 为 高 、 正 常 或 低 这 三 种 类 型 ， 并 且 将 分 别 按 4 : 2 : 1 的 比例 指定 份额 值 。 当 然 还 可 以 选择 各 虚拟 机 分 配 自 定义 的 特定 的 份额 值 来 表示 比例 权重 。 


- 资源 分 配 预 留 (Resource Allocation Reservation) 预 留 用 来 指定 为 虚拟 机 分 配 的 最 少 资源 量 ， 只 有 在 有 足够 的 未 预 留 资源 时 ，vCenter Server 或 ESXi 才 允许 启动 虚拟 机 。 预 留用 具体 单位 如 GHz 或 
兆 字 节 (MB) 分 别 表 示 CPU 和 内 存 的 容量 


- 资源 分 配 限制 (Resource Allocation Limit) ”限制 用 来 指定 可 以 分 配 到 虚拟 机 CPU、 内 存 或 存储 1/ 〇 的 资源 上 限 。 
通常 来 说 ， 为 了 使 vSphere 中 的 虚拟 机 获得 更 好 的 性 能 ， 遵 循 以 下 准则 选择 合适 资源 分 配 设 置 : 


` 如 需 频 繁 更 改 总 可 用 资源 ， 可 使 用 份额 在 虚拟 机 之 间 合 理 分 配 资源 。 在 升级 主机 的 情况 下 ， 即 使 每 个 份额 代表 较 大 的 内 存量 、CPU 或 存储 I/ 〇 资源 量 ， 使 用 分 配 份额 也 能 使 每 个 虚拟 机 保持 相同 的 优先 


. 使 用 预 留 来 指定 可 接受 的 最 低 CPU 或 内 存量 ， 而 不 是 想 要 使 用 的 量 。 主 机 可 以 根据 份额 的 数量 、 估 计 需 求 和 虚拟 机 的 限制 将 额外 的 资源 指定 为 可 用 资源 。 预 留 表示 的 具体 资源 量 不 会 随 环境 的 改变 


` 不 要 将 所 有 资源 指定 为 虚拟 机 的 预 留 ( 至 少将 10% 的 资源 保留 为 未 预 留 ) 。 系 统 容量 越 接 近 于 全 部 预 留 ， 想 要 在 不 违反 准 入 控制 的 情况 下 更 改 预 留 和 资源 池 层 次 结构 就 越 困 难 。 在 支持 DRS 的 集群 
内 ， 如 果 预 留 完 全 占用 集群 或 集群 内 各 台 主 机 的 容量 ， 将 会 阻止 DRS 在 主机 之 间 迁 移 虚 拟 机 。 


在 vSphere 中 ， 资 源 池 (Resource Pool) 是 资源 的 逻辑 抽象 ， 用 以 实现 更 为 灵活 的 资源 管理 。 由 于 可 以 组 织 为 层次 结构 ， 资 源 池 可 以 对 可 用 CPU 和 内 存 资源 按 层次 结构 来 划分 。 每 个 独立 主机 和 每 个 
DRs 集 群 都 具有 一 个 根 资源 池 ， 用 户 可 以 创建 根 资源 池 的 子 资源 池 ， 也 可 以 创建 用 户 创建 的 任何 子 资源 池 的 子 资源 池 ， 从 而 形成 子 资源 池 层 次 结构 (1805-13) 。 一 个 资源 池 可 包含 多 个 子 资源 池 和 虚拟 
机 ， 每 个 子 资源 池 都 拥有 部 分 父 级 资源 。 
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图 5-13 ”资源 池 层 次 结构 


同 级 


同 级 


图 片 来 源 : vSphere Resource Management, ESXi 5.5, vCenter Server 5.5 


同 虚 拟 机 的 资源 分 配 一 样 ， 每 个 资源 池 都 可 以 指定 资源 分 配 的 份额 、 预 留 以 及 限制 ， 随 后 该 资源 池 的 资源 将 用 于 其 子 资源 池 和 虚拟 机 。 除 此 之 外 ， 资 源 池 还 有 一 个 资源 分 配 的 选项 ， 称 为 可 扩展 预 贸 
(Expandable Reservation) 。 启 用 该 项 设置 后 ， 如 果 在 该 资源 池 中 启动 虚拟 机 ， 并 且 虚 拟 机 的 总 预 留 大 于 该 资源 池 的 预 留 容 量 ， 该 资源 池 就 可 以 使 用 父 级 或 更 上 级 的 资源 。 


vSphere 中 使 用 资源 池 具 有 以 下 优点 : 

* 灵活 的 层次 结构 组 织 。 根 据 需要 添加 、 移 除 或 重组 资源 池 ， 按 需 更 改 资 源 分 配 。 

. 资源 池 之 间 相 互 隔 离 ， 资 源 池内 部 相互 共享 部 门 资源 。 某 个 部 门 资源 池内 部 的 资源 分 配 变 化 不 会 对 其 他 不 相关 的 资源 池 造 成 不 公平 的 影 

C 访问 控制 和 委派 。 由 顶级 管理 员 建 立 和 配置 资源 池 供 部 门 级 管理 员 使 用 ， 该 管理 员 在 当前 的 份额 、 预 留 和 限制 设置 向 该 资源 池 授 予 的 资源 范围 内 进行 所 有 的 虚拟 机 创建 和 管理 操作 。 


资源 与 硬件 的 分 离 。 在 DRS 集 群 中 ， 这 意味 着 管理 员 可 以 独立 于 提供 资源 的 实际 主机 来 进行 资源 管理 。 


v 


F 理 运行 多 层 服务 的 虚拟 机 。 将 实现 多 层 服 务 的 虚拟 机 组 织 到 同一 个 资源 池 中 ， 通 过 更 改 所 属 资 源 池上 的 设置 控制 对 虚拟 机 的 聚合 资源 分 配 。 
4.vCloud Director 资 源 管理 


云 计算 环境 要 求 客户 能 够 按 需 交 付 基 础 架构 ， 以 便 终端 用 户 能 以 最 大 的 敏捷 性 使 用 虚拟 资源 。vCloud 正 是 这 样 一 个 基于 VMware 技 术 的 云 计 算 方案 : 通过 vCloud Director 将 基础 架构 资源 整合 成 资源 
池 ， 从 而 允许 用 户 按 需 消费 这 些 资源 ， 构 建安 全 高 效 的 多 租户 混合 云 。 


从 本 质 上 来 说 ，vCloud Director 引 入 了 一 个 抽象 层 ， 它 位 于 虚拟 机 用 户 与 vSphere 的 基础 平台 之 间 。 具 体 来 说 ， 为 了 更 好 地 满足 云 平台 的 多 租户 等 特性 ，vCloud Director 在 vSphere 的 物理 资源 抽象 之 
上 引入 了 新 的 逻辑 结构 ， 包 括 部 门 、 虚 拟 数据 中 心 、 资 源 分 配 模 型 以 及 vVApp 等 。 


在 了 解 vCloud Director 的 资源 管理 方式 之 前 ， 我 们 有 必要 先 介 绍 一 下 新 引入 的 相关 逻辑 结构 : 
2877 (Organization) ”部 门 是 多 租户 的 基本 单元 ， 也 代表 了 逮 辑 上 的 安全 边界 。 一 个 部 门 包括 了 其 用 户 、 唐 拟 数据 中 心 及 网 络 。 


“ 提供 者 虚拟 数据 中 心 (Provider Virtual Data Center, Provider VDC) Provider VDC 是 来 自 于 单一 vCentet 服 务 器 实例 的 计算 和 存储 资源 集合 ， 是 物理 计算 资源 和 数据 存储 的 资源 池 ， 其 中 的 资源 可 被 多 


个 部 门 共 享 。 
.部门 唐 拟 数据 中 心 (Organization Virtual Data Center, Organization VDC) Organization VDC X A B& Á Provider VDC 的 计算 和 存储 资源 子 集 ， 通 过 vCloud Director 的 资源 分 配 模 型 来 初始 化 。 
资源 分 配 模型 (Resoutce Allocation Model) ”资源 分 配 模 型 定义 了 资源 如 何 从 Provider VDC 中 分 配 到 Organization VDC 中 ， 以 及 Organization VDC 的 vApp 部 署 中 资源 如 何 被 使 用 。 
"VApP vApp 是 分 布 式 软件 应 用 的 容器 ， 也 是 vCloud Director 标 准 部 署 单元 ， 由 一 个 或 多 个 虚拟 机 组 成 ， 可 以 通过 OVF 格 式 导 入 和 导出 。 


在 vCloud 环 境 中 ， 由 vSphere 层 提供 可 供 使 用 的 资源 ， 这 些 资源 会 被 提供 给 Provider VDC, Provider VDC 在 此 之 上 提供 新 的 资源 抽象 层 。 当 各 个 Organization VDC 从 Provider VDC 中 提取 资源 
Hj, Provider VDC 会 相应 地 在 vSphere 层 建立 Organization VDC 与 资源 的 关联 。 而 在 每 个 Organization VDC 上 定义 的 资源 分 配 模型 确定 了 vSphere 层 的 资源 如 何 被 消耗 ， 同 时 也 影响 着 共享 这 一 Provider 
VDC 的 Organization VDC 上 的 可 用 资源 。 


在 vCloud Director 中 ， 一 个 Provider VDC 将 被 直接 映射 到 vSphere 的 DRS 集 群 ， 或 者 映射 到 集群 中 的 某 个 资源 池 。 通 过 这 种 映射 ， 相 关 的 计算 和 存储 资源 就 被 划分 到 特定 的 Provider VDC， 也 实现 了 
资源 在 不 同 部 门 的 高 效 分 布 。 当 新 的 硬件 资源 加 入 集群 中 时 ， 由 于 先前 建立 的 映射 的 存在 ， 它 们 会 被 自动 加 入 相关 联 的 Provider VDC 中 。 另 一 方面 ， 在 vCloud Director 中 ，Organization VDC 被 用 来 划分 
Provider VDC 中 的 资源 。 而 在 这 一 过 程 中 ，vCloud Director 其 实 是 利用 了 vSphere 的 资源 池 作 为 资源 划分 的 基本 手段 。 一 个 部 门 可 以 拥有 多 个 Organization VDC， 其 中 每 一 个 都 利用 了 来 自 不 同 Provider 
VDC 的 资源 ， 这 些 不 同 的 Provider VDC 通 常 代表 了 具备 不 同性 能 、 可 用 性 及 成 本 的 服务 。 每 一 个 Provider VDC 可 以 将 它 的 资源 呈现 给 属于 不 同 部 门 的 多 个 Organization VDC, 


vCloud Director 中 的 每 一 个 Organization VDC 都 配置 了 一 种 分 配 模型 ， 该 模型 决定 了 它 如 何 从 Provider VDC 中 分 配 到 资源 。vCloud Director 中 支持 以 下 三 种 资源 分 配 的 模型 


. 按 需 付费 (Pay-As-You-Go) 模型 提供 的 是 一 个 无 限 资 源 池 的 假象 。 在 这 个 模型 下 ，Oteanization VDC 被 映射 到 一 个 未 被 配置 预 留 和 限制 的 资源 池 。 在 该 资源 池 建 立 的 时 候 ，vCloud Director 并 不 改 
变 它 的 默认 设置 ， 资 源 分 配 的 设置 可 以 建立 在 虚拟 机 的 层次 上 。 资 源 的 分 配 发 生 在 vVApp 实 际 部 署 到 Organization VDC 的 时 刻 ， 同 时 由 于 该 资源 池 是 可 扩展 预 留 的 ， 它 可 以 从 父 级 资源 池 中 获取 未 预 留 资源 的 容 


Hels 


.分配 池 (Allocation-Pool) “模型 能 确保 所 分 配 资源 中 一 定 百分比 的 容量 ， 这 部 分 得 到 保证 的 容量 在 建立 资源 池 的 时 候 直接 对 应 到 资源 池 的 资源 预 留 容 量 。 而 预 留 容量 和 限制 容量 之 间 的 差 值 将 用 来 
满足 突 发 的 资源 需求 。 在 启动 虚拟 机 的 时 候 ， 准 入 控制 (Admission Control) 会 检查 资源 池 是 否 能 满足 该 虚拟 机 的 资源 预 留 容量 。 在 分 配 池 模 型 中 ， 可 扩展 预 留 是 被 禁用 的 ， 因 此 虚拟 机 的 资源 预 留 只 能 由 
Organization VDC 本 身 的 资源 预 留 来 满足 。 如 果 没 有 足够 的 可 用 资源 来 保证 虚拟 机 的 资源 预 留 ， 该 虚拟 机 的 启动 将 不 会 成 功 。 


- 预 留 池 (Reservation-Pool) 模型 要 求 分 配给 Organization VDC 的 资源 是 特定 预 留 的 ， 配 置 为 这 种 模型 的 Organization VDC 映 射 到 的 资源 池 的 预 留 和 限制 被 设置 为 相同 的 容量 。 默 认 情 况 下 ， 预 留 池 
模型 并 不 对 每 个 虚拟 机 进行 资源 分 配 的 设 定 ， 但 vCloud Director 也 支持 定制 虚拟 机 的 资源 配置 。 如 果 资 源 池 内 发 生 资 源 竞 争 ， 未 预 留 的 可 用 资源 会 根据 虚拟 机 的 具体 资源 需求 和 优先 级 进行 分 配 。 


从 资源 使 用 者 的 角度 ， 以 上 三 种 资源 分 配 模 型 对 应 了 不 同 的 使 用 场景 。 
通常 来 说 ， 按 需 付 费 模型 适用 于 那些 临时 、 短 暂 的 资源 需求 ， 以 及 低 成 本 、 低 性 能 的 应 用 类 型 。 这 类 应 用 的 例子 包括 一 些 测试 类 的 软件 应 用 和 带 有 实验 性 质 的 应 用 。 


:分配 池 模型 适合 的 往往 是 那些 需要 时 刻 确保 一 定 的 资源 使 用 ， 同 时 需要 满足 偶尔 出 现 的 突 发 性 资源 需求 的 场景 。 这 类 场景 包括 一 些 带 有 时 间 特 征 的 应 用 ， 比 如 财务 系统 ， 这 些 应 用 在 周末 或 月 末 的 时 
候 需 要 额外 的 资源 来 满足 应 用 需求 。 


. 预 留 池 模 型 在 概念 上 比较 接近 虚拟 私有 云 ， 它 适用 于 需要 在 虚拟 机 级 别 进行 资源 控制 的 生产 环境 中 的 应 用 ， 以 及 其 他 需要 专属 预 留 资源 的 场景 ， 比 如 一 些 要 求 物理 隔离 的 、 在 安全 和 合 规 方面 有 特定 
需求 的 应 用 。 
5.vCloud 资 源 管理 实例 


最 后 我 们 结合 一 个 实例 来 展示 vCloud 资 源 管 理 中 的 资源 分 配 过 程 (该 实例 来 自 于 VMware 官 方 文档 : VMware vCloud Director Resource Allocation Models) 。 这 个 实例 中 有 3 个 用 户 共享 同一 个 
Provider VDC， 它 们 使 用 同一 种 资源 分 配 的 模型 一 一 按 需 付费 ， 但 是 有 着 各 自 不 同 的 具体 配置 。 每 个 用 户 会 同时 启动 两 个 vApp， 每 个 vApp 包 含 了 两 个 虚拟 机 。 关 于 Provider VDC 和 虚拟 机 的 具体 资源 容 
量 /需求 以 及 各 个 用 户 所 选用 的 资源 分 配 模型 的 相关 配置 分 别 见 表 5-4、 表 5-5。 


表 5-4 按 需 分 配 的 具体 资源 容量 /需求 


E E ^ 存 


虚拟 数据 中 心 提 供 者 50GB 
虚拟 机 1 2 个 虚拟 CPU 4GB 
虚拟 机 2 fe 40, CPU 4GB 
虚拟 机 内 存 开 销 | 250MB 


5-5 不 同 用 户 的 资源 分 配 模型 配置 


z B AM CPU T LIS 
"TE i IET PUO 26GH; 100% 
"TE I CPUO.26GHz 50% 
"TE nz | ow | 100% | o 


因为 按 需 付费 的 分 配 模式 在 资源 池上 保留 了 可 扩展 预 留 的 设置 ， 所 以 用 户 能 直接 从 Provider VDC 中 提取 资源 。 同 时 由 于 各 个 用 户 的 具体 配置 有 所 差异 ， 这 些 虚拟 机 最 终 会 展示 出 不 同 的 性 能 


以 内 存 的 使 用 为 例 ， 用 户 1 的 虚拟 机 将 完全 获得 其 所 需 内 存 ， 共 17384MB (其 中 1000MB 是 虚拟 化 机 制 为 了 运行 4 个 虚拟 机 所 需 的 额外 内 存 开销 ) ; 而 用 户 2 因 为 只 设置 了 50% 的 内 存 预 留 ， 可 以 获得 
9192MB 的 内 存 ( 同 用 户 1 一 样 ， 其 中 1000MB 是 额外 的 内 存 开销 ) ; 当 用 户 3 的 虚拟 机 启动 后 ， 由 于 设置 的 内 存 预 留 为 0， 只 获得 运行 4 个 虚拟 机 的 基本 内 存 开销 1000MB。 这 时 候 ， 整 个 Provider VDC 还 剩 
余 23624MB 的 未 预 留 内 存 容量 ( 见 图 5-14) 。 


cuspe cupa 2 Cu 用 gn 时 3 
17,384MB Demand 17,384MB Demand 17,384MB Demand 


Provider VDC 
"RS ER SERES || ||| Arrr TTT 


dB BHHRR HUI LII HD LLL HOD 


17 384MB 9192MB 8 192MB 15 342MB 1000MB 


Reserved Memory Unreserved Memory 


图 5-14 Provider VDC 内 存 分 配 


图 片 来 源 : VMware vCloud Director Resource Allocation Models 


这 些 剩余 的 内 存 将 由 用 户 2 和 用 户 3 通过 竞争 来 分 配 。 具 体 来 说 ， 由 于 按 需 付费 方式 保留 了 资源 池 的 默认 设置 ， 用 户 2 和 用 户 3 所 对 应 的 资源 池 将 获得 相同 的 内 存 份额 ， 所 以 这 两 个 用 户 有 权 各 自分 配 到 
23624MB 的 一 半 ， 也 就 是 11812MB 内 存 。 同 时 由 于 用 户 2 这 时 只 再 需要 8192MB 内 存 ， 用 户 3 将 额外 获得 剩余 内 存 。 


第 6 草 “流程 控制 


自从 数据 中 心 诞生 以 来 ， 其 高 效 管理 和 快速 部 署 就 是 一 项 重要 的 功能 需求 ， 数 据 中 心 管理 员 和 用 户 一 直 在 追求 更 快 、 更 高 效 、 更 灵活 、 功 能 更 齐全 的 部 署 和 管理 方式 ， 原 因 是 数据 中 心 实在 是 一 个 非常 
复杂 的 系统 ， 犹 如 一 个 集成 了 多 个 子 系统 的 IT 航母 ， 涵 盖 了 IT 服务 的 多 项 功能 ， 比 如 计算 、 人 存储 、 网 络 、 安 全 等 ， 而 这 些 功 能 又 由 多 种 软 硬 件 、 多 种 协议 、 多 个 厂家 的 设备 来 完成 。 数 据 中 心 在 管理 模块 的 
统一 协调 下 ， 完 成 对 用 户 业 务 的 上 T 支 撑 ， 而 且 通 常 一 个 数据 中 心 还 是 开放 和 可 扩展 的 ， 这 意味 着 其 在 不 断 演进 、 更 新 和 扩展 ， 这 些 都 使 数据 中 心 变 得 更 加 庞大 和 复杂 ， 自 然 给 数据 中 心 的 管理 带 来 巨大 的 挑 
战 。 进 入 云 计 算 时 代 以 后 ， 数 据 中 心 对 智能 化 管理 和 部 署 的 要 求 就 更 高 了 ， 原 因 是 云 环 境 中 资源 和 应 用 不 但 规模 变化 范围 大 而 且 动 态 性 高 ， 用 户 所 需 的 服务 主要 采用 按 需 部 署 的 方式 ， 即 用 户 随时 提交 对 资 
源 和 应 用 的 请 求 ， 云 环境 管理 程序 负责 分 配 资源 、 部 署 服务 。 其 次 ， 不 同 层次 云 计算 环境 中 服务 部 署 模式 不 一 样 ， 在 软件 定义 数据 中 心里 ， 各 个 资源 和 模块 都 实现 了 数据 层 和 控制 层 的 分 离 ， 具 备 了 可 编程 
和 可 集中 控制 的 性 能 ， 这 为 数据 中 心 的 高 效 管理 和 快速 部 署 莫 定 了 坚实 的 基础 。 本 章 主要 介绍 的 就 是 软件 定义 数据 中 心 的 流程 控制 功能 ， 主 要 关注 数据 中 心 的 自动 化 和 智能 化 管理 。 


6.1 概述 


云 计 算 的 本 质 之 一 是 集中 与 管理 。 服 务 器 、 存 储 、 网 络 、 安 全 控制 、 虚 拟 化 技术 都 是 为 了 构建 资源 池 并 形成 资源 的 统一 调度 来 更 好 地 满足 高 IOPSs 性 能 、 数 据 库 、 联 机 事务 处 理 系统 (OLTP). ARX 
持 系统 (OLAP) 、 报 表 系 统 以 及 众多 独立 开发 的 核心 业务 系统 的 需求 。 


较为 成 熟 的 且 在 服务 器 中 应 用 甚 广 的 高 可 用 集群 技术 与 虚拟 化 正在 逼迫 相对 独立 的 计算 、 存 储 和 网 络 进一步 变革 。 人 在 计算 领域 ， 虚 拟 机 、 软 件 定义 计算 已 经 不 是 陌生 的 话题 ; Ra, SSD. DJfr 
阵列 不 断 涌现 ， 统 一 存储 、 自 动 分 层 存 储 、 人 存储 虚拟 化 、 压 缩 /重复 数据 删除 等 软件 技术 正在 走向 纵深 ; 在 网 络 领 域 ， 关 于 大 二 层 网 络 架构 、 网 络 虚 拟 化 及 SDN (软件 定义 网 络 ) 的 讨论 也 是 不 绝 于 耳 。 


与 热烈 讨论 一 起 进行 的 还 有 深刻 的 变革 ， 而 范围 不 再 是 虚拟 机 、 存 储 、 路 由 器 、 交 换 机 、 防 火 墙 、 无 线 、IP 存 储 、IP 语 音 等 SNMP 设 备 的 管理 ， 而 是 更 深 一 步 ， 如 何 连 接 用 户 的 业务 需求 和 数据 中 心 的 
服务 ， 如 何 将 数据 中 心 的 资源 转变 为 服务 和 功能 ， 如 何 能 够 交付 数据 中 心 的 服务 功能 。 


业务 处 理 往往 包含 一 系列 应 用 并 涉及 多 个 业务 单元 之 间 的 相互 协调 。 在 云 计 算 环境 ， 我 们 将 该 过 程 称 为 编排 或 协同 (Orchestration) 。 编 排 最 早出 现 于 艺术 领域 ， 指 的 是 按照 一 定 的 目的 对 各 种 音乐 、 
舞蹈 元 素 进 行 排列 ， 以 期 达到 最 好 的 效果 。 引 申 到 数据 中 心 管理 范畴 ， 指 的 是 以 用 户 需求 为 目的 ， 将 数据 中 心 各 个 服务 单元 进行 有 序 的 安排 和 组 织 ， 使 各 个 组 成 部 分 平衡 协调 ， 生 成 能 够 满足 用 户 要 求 的 服 
务 (如 图 6-1 所 示 ) 。 数 据 中 心 的 编排 通常 利用 工作 流 (Workflow) 来 实现 ， 工 作 流 是 针对 日 常 工作 中 具有 固定 程序 的 工作 抽象 出 来 的 一 个 概念 ， 是 一 种 反映 业务 流程 的 计算 机 化 的 模型 ， 是 为 了 在 计算 机 
环境 支持 下 实现 经 营 过 程 集成 与 经 营 过 程 自动 化 而 建立 的 可 由 工作 流 管理 系统 执行 的 业务 模型 。 典 型 的 工作 流 如 图 6-2 所 示 。 它 解决 的 主要 问题 是 : 使 在 多 个 参与 者 之 间 按 照 某 种 预定 义 的 规则 传递 文档 、 信 
息 或 任务 的 过 程 自动 进行 ， 从 而 实现 某 个 预期 的 业务 目标 或 者 促使 此 目标 的 实现 。 通 过 设计 和 开发 后 的 工作 流 需要 具备 快速 部 署 、 动 态 调整 、 重 复 使 用 、 自 动 触发 的 能 力 。 


Module 


图 6-1 ITH HE 
编排 工作 流 是 实现 数据 中 心 实现 流程 控制 的 核心 ， 而 数据 中 心 的 工作 流 管 理 系统 ， 也 称 为 Orchestrator， 则 是 实现 数据 中 心 流程 管理 的 关键 组 件 。 数 据 中 心 通 过 Orchestrator 完 成 工作 流 的 定义 和 管 
理 ， 并 按照 预先 定义 好 的 工作 流 逻 辑 推进 工作 流 实 例 的 执行 ， 通 过 对 业务 、 公 文 流转 进行 分 析 以 及 抽象 ， 将 不 变 和 变化 的 部 分 进行 划分 ， 用 户 可 轻松 地 通过 可 视 化 的 工具 对 事项 的 流程 、 流 程 环节 涉及 的 人 
员 (角色 ) 、 流 程 环节 的 表单 、 流 程 环节 的 操作 进行 修改 ， 从 而 到 达 应 对 不 断 变化 的 需求 的 目的 。 
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图 6-2 ”典型 的 工作 流 


数据 中 心 的 Orchestrator 还 是 实现 数据 中 心 laaS 的 关键 组 件 。Orchestrator 是 建立 在 数据 中 心 基础 设施 之 上 的 一 层 系 统 ， 这 个 系统 上 部 署 的 自动 化 任务 能 够 通过 各 种 事件 来 触发 ， 比 如 数据 中 心 资源 的 
申请 就 会 触发 相应 资源 的 自动 创建 、 配 置 、 通 知 、 审 计 等 自动 化 流程 ， 甚 至 有 些 自动 化 任务 本 身 就 可 以 单独 直接 提供 给 用 户 ， 比 如 操作 系统 的 自动 安装 、 数 据 的 自动 备份 、 系 统 的 安全 监控 等 。 通 过 上 层 的 
应 用 和 Orchestrator 的 结合 ， 数 据 中 心 不 再 是 简单 的 设备 的 组 合 ， 而 是 作为 服务 向 外 呈现 ， 数 据 中 心 可 以 实现 对 用 户 需求 的 按 需 供给 、 按 需 定 制 ， 实 现 数据 中 心 的 软件 定义 。 


数据 中 心 的 Orchestrator 也 是 一 个 逐渐 发 展 和 完善 的 过 程 ， 对 比 目 前 企业 中 广泛 应 用 的 办 公 自 动 化 和 业务 自动 化 系统 ， 笔 者 认为 数据 中 心 的 Orchestrator 可 以 认为 是 传统 业务 工作 流 (Business 
Workflow) 思想 的 延伸 和 扩展 应 用 ， 它 的 设计 和 实现 也 借鉴 和 参考 了 传统 工作 流 管 理 系统 的 理论 和 模型 。 传 统 工作 流 最 初 的 设计 目标 是 创建 无 纸 化 办 公 环 境 ， 实 现 企 业 的 信息 化 、 自 动 化 、 规 范 化 和 标准 
化 ， 帮 助 企业 提高 运行 效率 和 效益 ， 这 和 数据 中 心 的 Orchestrator 的 设计 思想 是 一 脉 相 承 的 ， 在 具体 的 数据 中 心 工作 流 的 设计 和 实现 方面 ， 也 和 传统 的 工作 流 是 一 致 的 ， 所 以 对 传统 工作 流 系统 的 介绍 有 助 


于 读者 更 好 地 理解 数据 中 心 的 Orchestrator。 


传统 的 工作 流 系 统 以 工作 流 管理 联盟 (Workflow Management Coalition, WfMC) 定义 的 工作 流 参 考 模型 和 五 类 接口 为 代表 。WfMC 是 1993 年 成 立 的 由 多 家 公司 联合 成 立 的 国际 标准 组 织 ， 其 宗旨 
是 通过 制定 工作 流 技 术 及 其 标准 ， 提 高 不 同 工 作 流产 品 之 间 的 连通 性 和 协同 工作 能 力 。 通 过 使 用 标准 可 以 使 不 同 的 产品 之 间 协 同 工 作 ， 也 可 以 改善 工作 流产 品 与 其 他 IT 服务 (电子 邮件 、 文 档 管理 ) 之 间 的 
集成 。 在 WfMC 定 义 的 参考 模型 (如 图 6-3 所 示 ) 中 ， 工 作 流 引 警 是 工作 流 管理 系统 的 核心 ， 它 对 使 用 工作 流 模型 描述 的 过 程 进行 初始 化 、 调 度 和 监控 ， 在 需要 人 工 介入 的 场合 完成 计算 机 应 用 软件 与 操作 人 


员 的 交互 。 它 的 男 外 一 个 重要 功能 是 完成 与 应 用 软件 及 操作 人 员 的 交互 。 工 作 流 引 擎 通过 WAPI (Workflow API) 接口 和 其 他 系统 组 件 交 互 ， 通 过 这 些 接口 可 以 访问 工作 流 管理 系统 的 服务 ， 在 WfMC 的 参 
模型 中 ， 有 五 类 基本 接口 。 具 体 含义 如 下 : 


* 接口 工作 流 定义 接口 ， 为 用 户 提供 一 种 可 视 化 的 、 可 以 对 实际 业务 进行 建 模 的 工具 ， 并 生成 业务 过 程 的 可 被 计算 机 处 理 的 形式 化 描述 即 流程 定义 。 


. 接口 2 工作 流 客户 应 用 接口 ， 给 用 户 提供 一 种 手段 ， 以 处 理 过 程 案 例 运行 过 程 中 需要 人 工 干 预 的 任务 。 每 一 个 任务 的 最 小 工作 单元 称 为 一 个 工作 项 (workitem) o 
一 个 工作 项 列表 ， 它 表示 当前 需要 该 用 户 处 理 的 所 有 任务 。 


-$03 工作 流 调 用 应 用 接口 ， 指 工作 流 执 行 服务 在 案例 的 运行 过 程 中 调用 的 、 用 以 对 应 用 数据 进行 处 理 的 程序 。 在 过 程 定 义 中 包含 这 种 应 用 程序 的 详细 信息 ， 如 类 型 、 地 址 等 。 


vy 


. 接口 4 工作 流 引 擎 协作 接口 ， 在 大 型 的 分 布 式 工作 流 管理 系统 中 ， 需 要 多 个 工作 流 引 擎 共同 完成 ， 甚 至 
了 一 种 标准 。 


至 需要 其 他 异 质 的 工作 流 执行 服务 来 辅助 完成 ， 此 接口 为 不 同 的 工作 流 管 理 系 统 之 间 的 协作 提供 


“F205 管理 接口 ， 其 功能 是 对 工作 流 管理 系统 中 娄 例 的 状态 进行 监控 与 管理 ， 如 组 织 机 构 管 理 、 实 例 监 控 管 理 、 统 计 分 析 管 理 、 资 源 控制 等 。 
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图 6-3 WfMC 定 义 的 工作 流 模 型 


男 外， 除了 工作 流 引 擎 ， 还 定义 了 其 他 四 个 基本 模块 ， 分 别 是 


. 工作 流 定义 工具 ”工作 流 定义 工具 把 实际 的 过 程 通过 图 视 化 的 方法 或 者 简单 的 文本 描述 出 来 并 产生 或 转化 成 规格 的 工作 流 定义 语言 格式 ， 并 以 规范 化 的 格式 交付 给 工作 流 运行 服务 模块 ， 供 其 实例 化 
和 执行 。 工 作 流 定义 格式 既 有 非 形式 化 的 ， 也 有 复杂 的 、 高 度 形式 化 的 过 程 定义 语言 或 者 对 象 关 系 模型 。 


“ 工作 流 的 管理 和 监 让 负责 管理 和 监视 工作 流 ， 包 括 用 户 管理 、 角 色 管 理 、 工 作 流 审核 管理 、 资 源 控 制 、 过 程 监视 和 过 程 状态 查询 。 管 理应 用 还 可 以 对 工作 流 实例 进行 管理 和 控制 ， 包 括 运 行 记录 、 
错误 恢复 、 停 止 、 修 改 和 删除 工作 流 等 。 


: 工作 流 客 户 应 用 工作 流 的 使 用 者 或 者 触发 者 ， 它 可 以 通过 工作 列表 访问 (Workflow Access) 接口 访问 工作 流 列表 (Worklist) ， 在 工作 流 模 型 中 ， 通 过 定义 好 的 接口 来 完成 应 用 程序 和 工作 流 引 敬之 
间 的 交互 。 


` 供 调用 的 应 用 ”一些 供 工作 流 引 擎 调用 的 程序 的 集合 ， 每 一 个 程序 负责 完成 工作 流 中 的 某 
i od 常 在 工作 流 Zu A 统 的 实现 过 程 中 ， 这 一 部 分 可 以 通过 扩展 来 丰富 工作 流 的 功 能 


些 或 某 个 活动 的 全 部 或 者 部 分 任务 ， 工 作 流 引擎 根据 工作 流 的 定义 在 运行 时 调用 它们 来 完成 工作 流 的 执行 。 
传统 的 工作 流 系统 在 云 计 算 时 代 获 得 了 全 面 而 深入 的 发 展 ， 根 据 云 计算 和 数据 中 心 的 特点 ， 对 工作 流 系统 做 了 相应 的 定制 和 和 集成， 使 得 数据 中 心 的 工作 流 系统 既 在 “ 云 之 上 ”， 又 在 “ 云 之 中 ”， 集 中 
表现 在 如 下 几 个 方面 : 
面向 服务 的 架构 ”数据 中 心 的 Orchestrator 通 常 可 以 通过 Web 服 务 协议 栈 向 外 暴露 服务 ， 支 持 一 种 或 者 多 种 标准 协议 ， 比 如 XML、REST/HTTP 或 SOAP 等 。 


: 实施 实时 监控 ”数据 中 心 对 稳定 性 和 可 用 性 有 非常 高 的 要 求 ， 这 需要 一 些 自动 化 的 任务 实时 监控 其 运行 情况 ， 比 如 网 络 的 安全 监控 、 服 务 器 的 负载 监控 、 虚 拟 机 的 健康 状态 等 ， 并 根据 监控 结 
应 的 处 理 ， 比 如 事件 报告 、 数 据 备份 等 。 


告 果 做 相 


pe 


. 可 扩展 性 高 ”数据 中 心 的 软 硬 件 构成 非常 复杂 ， 硬 件 集成 了 多 个 厂商 、 多 种 型 号 的 硬件 ， 比 如 交换 机 、 路 由 器 、 服 务 器 、 存 储 等 ; 与 此 同时 ， 各 种 应 用 、 服 务 、 协 议 在 数据 中 心 同时 运 


行 ，Otrchesttatot 必 须 具 备 和 这 些 软 硬件 交互 的 能 力 才 能 完成 工作 流 的 任务 ， 这 就 需要 Otchesttatof 可 以 通过 第 三 方 的 播 件 或 工具 来 完成 功能 的 扩展 ， 比 如 VMwate vCentef 和 System Center #4) Orchestratorap FLA 3x- 


一 性 能 。 


可 伸缩 性 和 高 可 用 性 ”数据 中 心中 工作 流 的 并 发 执行 是 常态 ,很 多 工作 流 任 务 是 非常 耗 时 的 ， 比 如 数据 的 完整 性 检查 、 虚 拟 机 迁移 、 数 据 备份 等 ， 还 有 一 些 事件 的 报告 也 非常 频繁 ， 比 如 硬件 错误 引 
起 的 告警 等 ， 这 就 需要 工作 流 引 擎 具备 并 发 执行 工作 流 的 能 力 ; 同时 ， 工 作 流 引擎 还 要 保证 能 有 很 高 的 可 用 性 ， 具 有 故障 转移 的 能 力 。 比 如 Mictosoft System Center 的 工作 流 引 擎 Runbook Server 可 以 同时 并 发 
多 个 工作 流 ， 而 且 可 以 部 署 多 个 Runbook Setvet 组 成 一 个 集群 来 实施 故障 转移 和 负载 平衡 ， 来 保证 工作 流 的 并 发 执行 和 高 可 靠 运行 。 


集中 部 署 “作为 数据 中 心 的 一 个 组 件 ， 通 常数 据 中 心 的 Orchestrator 需 要 能 够 支持 和 其 他 组 件 统一 部 署 ， 可 以 通过 单一 的 安装 入 口 实施 部 署 ， 从 而 简化 系统 集成 的 复杂 度 。 


目前 成 熟 的 数据 中 心软 件 都 提供 了 自己 的 Orchestrator 套 件 ， 比 如 微软 的 System Center 2012 提 供 的 Runbook 套 件 、VMware vCenter 提 供 的 Orchestrator 套 件 、IBM Smart Cloud 提 供 的 
Orchestrator 等 ， 这 些 工 作 流 套件 都 提供 了 丰富 的 人 机 交互 接口 ， 比 如 图 形 化 的 编程 接口 和 CLI， 用 户 能 够 方便 而 直观 地 进行 工作 流 的 设计 和 开发 工作 ， 而 且 这 些 套件 还 提供 了 丰富 的 类 库 和 demo 程 序 ， 开 
发 人 员 可 以 在 这 些 demo 的 基础 上 修改 、 添 加 来 实现 自己 的 功能 。 


6.2 ”架构 和 功能 
6.2.1 数据 中 心 Orchestrator 的 架构 
流程 编排 负责 数据 中 心 业 务 发 放 和 资源 协调 ， 连 接 IT 和 网 络 资源 。 例 如 ， 用 户 需 要 一 套 LAMP (Linux+Apache+Mysql+Perl/PHP/Python) 软件 ， 搭 建 一 个 Web 应 用 程序 平台 。 对 于 服务 提供 商 来 


说 ， 这 需要 一 系列 的 操作 ， 创 建 虚 拟 机 、 安 装 操作 系统 、 在 网 络 上 隔离 出 安全 的 区 域 、 对 接 服务 保障 系统 、 对 接 计 费 系 统 等 。 这 一 系列 复杂 的 操作 可 以 通过 服务 编排 功能 来 完成 。 图 6-4 标 示 了 流程 编排 在 分 
布 式 云 数据 中 心 的 位 置 和 与 其 他 各 种 服务 之 间 的 关系 。 
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图 6-4 ”数据 中 心 Orchestrator 
数据 中 心 Orchestrator 的 架构 如 图 6-4 所 示 ， 各 个 组 件 在 Orchestrator 中 处 于 不 同 的 层次 ， 完 成 的 功能 也 各 不 相同 ， 不 过 大 至 上 可 以 分 为 客户 端 、 控 制 台 、 数 据 存 储 和 执行 服务 器 四 个 部 分 。 


1) 客户 端 是 提供 给 自动 化 流程 设计 人 员 创 建 、 修 改 和 部 署 策略 的 工具 。 通 常 只 有 开发 人 员 和 管理 员 能 够 访问 ， 开 发 人 员 可 以 利用 客户 端 开发 工作 流程 序 以 扩展 Orchestrator 的 功能 ， 通 过 自 定 义 现 有 工 
作 流 和 创建 新 的 工作 流 实现 过 程 自动 化 。 客 户 端 通常 提供 可 视 化 的 编程 工具 ， 开 发 人 员 可 以 通过 鼠标 将 标识 不 同 功 能 的 图 标 拖 搜 到 面板 里 ， 再 利用 链接 连接 这 些 活动 来 组 成 一 个 完整 的 工作 流程 。 通 常 在 客 
户 端 组 件 中 还 包括 策略 测试 控制 台 ， 可 以 用 来 帮助 设计 人 员 在 正式 部 署 共 组 流 之 前 ,调试 和 测试 策略 的 执行 情况 。 


2) 操作 员 控 制 台 通常 是 一 个 基于 Web 服 务 器 提供 操作 员 所 使 用 相关 功能 的 管理 接口 。 通 常 开放 给 最 终 用 户 ， 当 然 开 放 人 员 和 管理 员 也 可 以 访问 。 通 过 操作 控制 台 ， 可 以 实时 查看 当前 工作 流 的 运行 状 
态 ， 并 通过 基于 浏览 器 的 界面 启动 和 停止 工作 流 中 相应 的 策略 。 操 作 控 制 台 一 方面 接收 来 自 Web 客 户 端的 入 站 访问 ， 另 一 方面 与 数据 存储 服务 进行 出 站 通信 。 


3) 数据 存储 是 运行 数据 库 的 服务 器 ， 数 据 库 中 保存 了 所 有 的 配置 信息 、 调 试 信 息 以 及 日 志 信息 。 由 于 在 数据 存储 中 保存 了 工作 流 的 所 有 相关 信息 ， 因 此 数据 库 的 可 用 性 必须 得 到 充分 的 保障 。 目 前 在 
Orchestrator 中 使 用 的 数据 库 通 常 是 Microsoft SQL Server 或 者 Oracle。 


4) 执行 服务 器 也 可 以 称 为 Orchestrator 服 务 器 ， 是 策略 运行 的 引擎 ， 直 接 与 数据 存储 进行 通信 。 执 行 服务 器 需要 具备 并 发 多 个 工作 流 的 能 力 ， 而 且 为 了 保证 高 可 用 性 ， 可 以 根据 需要 部 署 单 台 或 者 多 台 
执行 服务 器 组 成 一 个 集群 来 实现 负载 均衡 和 故障 转移 。 


执行 服务 器 可 以 部 署 在 任意 能 够 与 数据 存储 进行 通信 的 计算 机 上 ， 但 是 必须 要 通过 使 用 同一 个 数据 存储 的 管理 服务 器 进行 部 署 。 在 部 署 执行 服务 器 的 过 程 中 ， 所 用 到 的 对 象 也 同样 会 被 部 署 到 该 服务 器 
上 ， 当 然 也 可 以 在 初始 化 部 署 之 后 使 用 部 署 管理 工具 安装 相应 的 集成 包 到 相应 的 执行 服务 器 。 


执行 服务 器 上 执行 工作 流 的 策略 依赖 于 工作 流 库 ， 工 作 流 库 是 执行 服务 器 执行 工作 流 的 工具 和 方法 ， 工 作 流 库 包 含 了 标准 的 工作 流 ， 通 常 也 可 以 自 定义 或 者 通过 第 三 方 的 插件 进行 扩展 。 通 常 的 标准 工 
作 流 包括 : 


-JDBC 通过 使 用 随 Orchestrator 附 带 的 JDBC (Java 数 据 库 连接 ) 插件 测试 工作 流 和 数据 库 之 间 的 通信 。 
. 锁定 ”演示 自动 过 程 的 锁定 机 制 ， 该 机 制 允 许 工 作 流 锁定 其 使 用 的 资源 。 

` 邮件 ”通过 工作 流 发 送 和 接收 邮件 。 

REST/SOAP 通过 REST/SOAP API 访 问 REST/SOAP 服 务 。 


- SSH ”实施 Secure Shell v2 (SSH-2) 协议 。 通 过 这 些 工 作 流 ， 可 以 使 用 密码 和 基于 公用 密 钥 的 身份 验证 来 实施 远程 命令 和 文件 传输 会 话 。 使 用 SSH 配 置 ， 可 以 指定 要 在 Orchestrator 清 单 中 公开 的 对 象 路 


-XML 可 以 在 自动 过 程 中 实施 的 文档 对 象 模型 (DOM) XML 分 析 程 序 。 
- 访问 其 他 组 件 功能 的 API 库 ”依赖 于 Ofchesttatot 运 行 的 平台 ， 例 如 在 VMware 平台 ， 执 行 服务 器 就 提供 了 访问 vCentet Server API 的 功能 。 
执行 服务 器 能 够 通过 第 三 方 的 插件 扩展 ， 比 如 PowerShell 揪 件 、 存 储 厂 商 的 自 定义 播 件 、 网 络 设备 商 的 自 定 义 揪 件 等 。 


Orchestrator 架 构图 的 另外 一 部 分 是 数据 中 心 的 基础 设施 和 管理 套件 ， 在 一 个 软件 定义 数据 中 心中 ， 编 排 涉 及 数据 中 心中 多 个 模块 和 资源 ， 包 括 计 算 、 存 储 、 网 络 以 及 数据 中 心 的 管理 模块 ， 比 如 配置 
模块 、 任 务 管理 模块 等 ， 而 且 和 业务 逻辑 紧密 关联 。 通 常用 户 的 一 个 业务 ， 需 要 由 多 个 步骤 分 步 执行 来 完成 ， 而 每 一 步 的 执行 又 需要 特定 的 前 提 条 件 ， 比 如 特定 的 输入 条 件 、 特 定 的 资源 条 件 等 ， 步 骤 的 执 
行 会 调用 相应 模块 的 接口 来 实现 其 特定 的 功能 ， 这 样 ， 一 个 功能 复杂 的 业务 会 分 解 为 多 个 功能 单一 的 步骤 的 组 合 ， 每 个 步骤 会 涉及 不 同 的 模块 和 业务 单元 ， 多 个 步骤 按照 用 户 业 务 的 逻辑 关系 相互 协调 和 配 
合 ， 最 终 将 用 户 的 业务 转换 为 数据 中 心 的 服务 和 功能 。 


6.2.2 ”数据 中 心 Orchestrator 的 功能 


通过 Orchestrator， 可 以 端 到 端 地 集成 对 接 计 算 、 人 存储 、 网 络 、 应 用 程序 等 业务 单元 ， 流 程 化 地 处 理 各 个 业务 单元 操作 ， 并 提供 回 退 、 逻 辑 判 断 等 能 力 ， 从 而 快速 提供 各 种 laaSs、PaaSs、Saas 等 云 服 
务 ， 同 时 协助 消除 人 工 错 误 。 服 务 编排 方案 能 够 各 自 独 立 ， 使 用 不 同系 统 的 组 织 部 门 ， 对 流程 进行 定义 、 自 动 化 和 编排 ， 因 而 有 助 于 提高 工作 效率 ， 并 强制 推行 标准 。 


服务 编排 解决 方案 包括 设计 、 整 合 和 编排 三 大 部 分 。 


1) 设计 。 设 计 师 可 通过 自动 化 库 快速 创建 并 测试 新 的 流程 。 该 库 由 数 百 个 自动 化 对 象 组 成 ， 有 助 于 实现 快速 设计 。 流 程 设计 师 可 利用 图 形 用 户 界面 或 通过 编写 脚本 实现 新 流程 的 自动 化 ， 也 可 将 现 有 的 
自动 化 脚本 导入 版 本 控制 库 ， 通 过 重复 利用 来 加 快 开 发 速度 。 


2) 整合 。 通 过 一 套 标 准 连接 器 ， 可 实现 与 各 类 常见 IT 系统 的 整合 。 借 助 这 些 连接 器 ， 用 户 可 在 应 用 程序 、 操 作 系统 和 其 他 IT 组 件 中 读 写 数据 、 启 动 任务 。 用 户 也 可 创建 自 定义 的 连接 器 ， 利 用 自 定义 操 
作 向 导 连 接 到 遗留 IT 系统 和 专 有 IT 系统 。 


3) 编排 。 一 旦 投入 生产 ， 流 程 将 在 高 度 可 扩展 、 具 有 容错 能 力 的 环境 下 执行 。 通 过 基于 网 页 的 界面 ， 管 理 员 可 快速 查看 正在 执行 的 各 个 流程 的 状态 。 在 流程 执行 的 同时 ， 每 个 步骤 都 会 自动 记录 在 审核 
日 志 中 。 


服务 编排 通过 “ 泳 道 ” 来 可 视 化 、 优 化 和 组 织 跨越 各 职能 部 门 和 组 织 的 复杂 流程 ， 可 在 任何 步骤 对 运行 中 的 流程 进行 监控 和 修正 。 服 务 编排 的 主要 功能 如 下 : 
1) 可 视 化 设计 界面 。 流 程 设计 师 可 通过 一 个 鼠标 点 击 操作 的 界面 开发 新 的 流程 。 设 计 师 可 以 将 流程 分 割 成 更 小 、 更 易于 管理 的 子 单元 ， 即 所 谓 的 “ 泳 道 ”， 从 而 简化 设计 过 程 ， 增 加 可 读 性 。 


2) 利用 连接 器 和 其 他 系统 整合 ， 使 数据 中 心 的 编排 能 够 以 服务 交付 。 这 些 系统 包括 操作 系统 、 服 务 台 、 商 业 应 用 ， 比 如 在 System Center 2012 中 ， 提 供 了 和 service Manager 的 连接 器 ， 用 户 可 以 通 
过 Service Manager 的 用 户 自助 门户 实现 对 数据 中 心 的 自动 化 管理 。 通 过 自 定义 操作 向 导 ， 用 户 可 开发 自己 的 连接 器 ， 用 于 实现 遗产 系统 和 专 有 系统 的 整合 。 


3) 可 视 化 异常 处 理 。 流 程 进入 未 知 状态 后 ， 会 自动 停止 运行 ， 等 待 解决 。 通 过 这 种 方式 ，IT 人 员 将 获悉 发 生 的 异常 ， 查 看 解决 问题 所 需 的 上 下 文 信息 ， 然 后 解决 问题 ， 而 不 需要 重启 整个 流程 。 
4) 基于 角色 的 访问 控制 。 通 过 基于 角色 的 访问 控制 ， 控 制 谁 有 权 创 建 、 管 理 流程 。 通 过 细 粒 度 的 访问 控制 ， 只 人 允许 授权 用 户 添加 或 更 改 工 作 流 。 

5) 可 升级 性 和 可 用 性 。 可 升级 度 高 的 架构 ， 拥 有 同时 执行 数 百 个 进程 的 能 力 。 可 用 性 高 的 配置 ， 在 基础 设施 出 问题 时 可 以 进行 故障 切换 。 

6) 常规 运行 自动 化 。 流 程 自动 化 最 直接 的 好 处 ， 在 于 常规 |T 流 程 的 自动 化 ， 即 所 谓 的 “常规 运行 自动 化 (RBA) 。 有 了 RBA，IT 人 员 不 再 需要 人 工 完成 常规 任务 。RBA 的 常见 例子 有 : 

| 问题 纠正 ”响应 常见 事件 和 警报 的 常规 任务 实现 自动 化 ， 无 需 人 工 介 入 。 例 如 ， 有 系统 流 程 或 服务 停止 运行 后 可 自动 重启 。 

* 事件 信息 多 样 化 ”利用 流程 自动 化 ， 从 各 分 散 系 统 收集 额外 的 信息 ， 帮 助 诊断 所 报告 的 问题 。 例 如 ， 监 测 到 服务 器 停机 后 ， 自 动 收集 各 设备 的 诊断 和 日 志 信息 。 


* 审核 报告 ”提取 I 本 审核 所 需 的 服务 器 ， 使 应 用 程序 日 志 的 过 程 实现 自动 化 。 例 如 ， 设 定 一 个 重复 执行 的 流程 ， 自 动 提取 当前 审核 的 应 用 程序 、 网 络 设备 和 服务 器 的 日 志 。 


6.3 ”实现 数据 中 心目 动 化 


6.3.1 数据 中 心 的 自动 化 势 在 必 行 


数据 中 心包 含 复杂 的 计算 、 网 络 、 存 储 等 资源 ， 数 据 中 心 的 维护 和 管理 一 直 是 数据 中 心 运营 过 程 中 最 大 的 工作 负荷 ， 企 业 为 保证 数据 中 心 的 正常 工作 ， 投 入 了 大 量 的 人 力 物 力 ， 通 过 制定 严格 的 管理 条 
例 和 复杂 的 工作 流程 来 规范 操作 ， 以 求 获得 最 大 的 稳定 性 和 可 用 性 。 但 是 传统 被 动 的 、 孤 立 的 、 半 自动 式 的 运 维 管 理 模式 经 常 一 方面 让 IT 部 门 疲惫 不 堪 ， 另 一 方面 则 让 数据 中 心 的 管理 维护 成 本 居 高 不 下 。 
国际 知名 调查 机 构 Gartner 调 查 发 现 ， 在 IT 运 维 成 本 中 ， 源 自 技术 或 产品 (包括 硬件 、 软 件 、 网 络 等 ) 的 成 本 其 实 只 占 20%， 而 流程 维护 成 本 占 40%， 运 维 人 员 成 本 占 40%。 流 程 维 护 成 本 包括 日 常 维护 、 变 
更 管理 、 测 试 成 本 等 ， 人 员 成 本 包括 训练 、 教 育 、 人 员 流 失 、 招 聘 成 本 等 。 


云 计算 本 质 上 是 提供 服务 的 多 个 模块 API 互 相连 接 的 程序 和 平台 组 合 ， 在 软件 定义 的 云 计算 中 心中 ， 计 算 、 网 络 、 存 储 的 实现 都 演化 为 面向 服务 的 模型 ， 各 个 模块 的 集中 控制 器 向 外 暴露 API， 使 模块 具 
备 了 可 编程 能 力 ， 而 且 控 制 器 使 得 各 个 模块 具备 了 中 央 控 制 的 功能 ， 从 而 自动 化 的 工作 流 能 够 集中 部 署 ， 集 中 控制 。 而 且 ， 随 着 各 个 模块 控制 器 的 控制 接口 向 开发 性 、 灵 活性 和 标准 化 方向 发 展 ， 自 动 化 工 
作 流 也 会 朝 标 准 化 方向 发 展 ， 使 工作 流 能 够 实现 跨 平台 、 跨 厂商 使 用 。 


通过 对 数据 中 心 的 硬件 、 软 件 和 流程 的 协调 、 组 合 ， 建 立 了 自 定 义 的 工作 流程 ， 跨 越 多 个 模块 帮助 自动 完成 上 T 系 统管 理 流 程 ， 以 提高 上 IT 运营 水 平 。 数 据 中 心 的 自动 化 消除 了 绝 大 多 数 手 工 操作 流程 ， 帮 
助 IT 操作 和 IT 服务 管理 队伍 提供 从 设计 到 运行 与 维护 的 服务 。 


6.32 ” 目 动 化 的 好 处 
数据 中 心 的 自动 化 部 署 和 管理 是 提供 云 服务 的 保证 ， 自 动 化 管理 能 够 带 来 如 下 好 处 。 


1) 增强 数据 中 心 管理 维护 人 员 和 解决 更 多 事件 的 能 力 。 毫 无 疑问 ， 数 据 中 心 的 自动 化 能 让 IT 人 员 从 繁琐 而 复杂 的 管理 维护 工作 中 解放 出 来 ， 更 多 手工 操作 的 流程 变 为 了 自动 执行 的 工作 流 ， 工 作 流 跨 多 个 
模块 ， 组 合 了 多 个 功能 ， 这 些 都 是 人 工 操作 难以 实现 的 ， 而 且 ， 工 作 流 细 化 了 数据 中 心 的 操作 ， 大 量 内 部 的 、 人 为 观察 不 到 的 事件 可 以 通过 工作 流 来 解决 。 


2) 减少 警报 和 错误 ， 提 高 数据 中 心 的 稳定 性 和 可 用 性 。 数 据 中 心 自 动 化 可 以 让 数据 中 心 的 警报 和 错误 “ 防 患 于 未 然 ”， 让 警告 和 错误 少 帮 生 或 者 不 上 发生 ， 保 证 数据 中 心 正常 工作 。 可 以 对 一 些 存在 风险 
的 操作 或 者 状态 设置 预 处 理 机 制 ， 将 事件 与 IT 流程 相关 联 ， 一 旦 被 监控 系统 发 生性 能 超标 或 死机 ， 会 触发 相关 事件 以 及 事先 定义 好 的 流程 ， 自 动 启动 故障 响应 和 恢复 机 制 。 比 如 对 存储 硬件 错误 的 定时 检查 
可 以 在 硬件 错误 前 及 时 实施 数据 备份 ， 对 服务 器 负载 的 监控 可 以 在 负载 过 重 时 自动 实施 虚拟 机 的 迁移 等 。 


3) 为 实施 变化 建立 一 个 一 致 的 、 可 重复 的 流程 ， 保 证 变更 控制 与 法 规 遵 从 ， 为 了 确保 遵守 法 规 和 安全 运行 ， 数 据 中 心 自动 化 管理 方案 必须 实施 强 有 力 的 IT 变更 控制 ， 自 动 预防 、 探 测 和 校正 非法 和 /或 
匆忙 的 变更 ， 以 确保 所 执行 的 变更 和 配置 政策 符合 法 规 和 内 部 审计 和 要求， 消除 漏洞 ， 减 少 风 险 。 此 外 ，IT 必 须 控制 安全 威胁 漏洞 并 持续 地 发 现 和 检查 变更 ， 以 确保 配置 保持 已 知 和 可 信任 状态 ， 帮 助 觉察 和 
消除 安全 性 风险 。 为 了 改善 变更 的 实施 ，|T 基 础 设施 库 (Information Technology Infrastructure Library, ITIL) 推荐 创立 了 一 个 由 IT 经 理 和 企业 或 机 构 领导 组 成 的 变更 管理 委员 会 (CAB) ， 执 行 监 控 、 
评估 和 实施 上 T 变 更， 从 而 最 大 限度 地 缩小 风险 、 扩 大 变更 的 收益 并 且 以 有 条 不 率 的 方式 处 理 所 有 变更 请 求 。 自 动 化 的 任务 每 次 都 是 以 相同 方式 完成 ， 因 此 ， 做 重复 变更 的 风险 就 会 降低 ， 从 而 缩短 业务 服务 
的 总 体 停机 时 间 。 此 外 ， 由 软件 完成 的 任务 可 以 被 清楚 地 记录 到 日 志文 件 ， 简 化 了 审计 工作 ， 降 低 了 遵循 行规 和 法 规 所 产生 的 成 本 。 


4) 将 IT 事件 管理 和 问题 管理 进程 连接 起 来 ， 使 数据 中 心 的 管理 更 科学 。|T 服 务 管理 每 个 流程 都 强调 周而复始 的 “计划 -实施 -检查 -更 正 ”， 可 以 利用 自动 化 策略 和 技术 实现 支持 整个 IT 流程 的 生命 质 
期 ， 把 数据 中 心 自 动 化 从 静态 的 过 程 转变 成 动态 的 螺旋 形 发 展 过程 。ITIL 最 大 的 亮点 之 一 就 是 强调 |T 服 务 的 生命 周期 管理 。ITI 是 供 组 织 内 部 进行 IT 服务 管理 的 参考 经 验 ， 汇 集 了 IT 服务 业内 的 最 佳 实践 ， 是 
指导 如 何在 运 维 管理 中 定义 人 员 、 流 程 、 服 务 活动 及 其 之 间 关 系 的 指导 框架 。 自 动 化 工作 流 能 够 借鉴 ITIL 的 思想 构建 全 面 的 基于 IT 儿 的 数据 中 心 运 维 自动 化 平台 ， 提 高 数据 中 心 的 自动 化 管理 水 平 。 


5) 提高 效率 ， 减 少 开 支 ， 降 低 企 业 IT 成 本 。 数 据 中 心 的 自动 化 管理 简化 了 管理 和 部 署 流程 ， 大 大 加 快 了 IT 交付 的 速度 ， 这 使 IT 设备 的 使 用 率 得 到 了 提高 ， 企 业 的 业务 能 够 在 第 一 时 间 内 得 到 配置 ， 预 处 
理 机 制 保证 了 数据 中 心 工作 的 稳定 性 ， 同 时 ， 维 护 人 员 的 数量 和 培训 成 本 也 可 以 相应 减少 ， 这 些 方面 都 降低 了 企业 的 IT 成 本 。 


6) 跨 部 门 强制 推行 标准 和 合 规 策略 ， 自 动 化 工作 流连 接 多 个 模块 ， 多 个 模块 需要 协调 工作 才能 实现 自动 化 策略 ， 这 需要 统一 的 标准 和 策略 来 组 织 和 支持 ， 使 得 整体 的 解决 方案 能 够 以 统一 的 接口 集成 ， 
以 统一 的 风格 、 统 一 的 操作 流程 交付 。 


7) 提高 业务 运行 的 透明 度 。 随 着 业务 需求 的 变化 ， 数 据 中 心软 件 可 能 会 有 多 个 版 本 出 现 ， 手 工 流程 的 不 透明 将 会 给 流程 定制 和 优化 带 来 相当 大 的 困难 ， 而 自动 化 流程 可 以 使 用 户 一 目 了 然 地 看 到 整个 流 
程 各 个 节点 的 运转 情况 ， 自 动 化 工具 潜移默化 地 提升 了 业务 保障 能 力 。 


6.3.3 ” 目 动 化 实施 的 对 象 


数据 中 心 的 自动 化 工作 流 可 以 实现 跨 多 个 模块 、 多 个 服务 来 部 署 和 实施 ， 在 当前 的 数据 中 心中 ， 可 以 对 计算 、 网 络 、 存 储 、 安 全 以 及 配置 等 方面 实施 自动 化 ， 例 如 : 


1) 软件 安装 集中 管理 服务 器 操作 系统 介质 和 安装 脚本 ， 批 量 安装 多 种 操作 系统 ， 包 括 Windows、Linux、Solaris、AIX、ESX 等 ， 可 实现 跨越 操作 系统 的 统一 服务 器 管理 ， 为 物理 、 虚 拟 和 公共 云 基础 
设施 提供 统一 的 支持 ， 其 中 包括 裸 机 安装 、 应 用 程序 部 署 和 系统 配置 的 即 开 即 用 能 力 。 借 助 软件 打包 和 OS 安装 管理 功能 ，IT 团 队 能 够 实现 服务 部 署 任务 标准 化 ， 提 高 一 致 性 ， 缩 短 供给 周期 。 


2) 补丁 管理 集中 管理 服务 器 补丁 介质 ， 对 当前 的 补丁 列表 进行 分 析 ， 提 供需 安装 的 补丁 建议 ， 并 批量 下 发 补丁 。 
3) 系统 配置 在 各 种 操作 系统 批量 地 、 自 动 化 地 进行 参数 调整 。 


4) 自动 巡 检 可 自动 收集 各 种 软 硬 件 信息 并 生成 报表 ， 包 括 服务 器 的 制造 商 、 型 号 、BIOS、 板 卡 、 人 存储 、 操 作 系统 版 本 、 软 件 列表 、 补 本 列表 、 安 全 设置 、 网 络 的 型 号 、 模 块 、 版 本 、 启 动 配置 、 运 行 
配置 等 。 


5) 虚拟 机 操作 可 以 自动 执行 虚拟 机 的 创建 、 配 置 、 删 除 、 迁 移 等 。 


6) 配置 和 网 络 拓扑 发 现 。 数 据 中 心 自 动 化 可 实现 自动 发 现 和 采集 网 络 设备 的 配置 ， 比 如 设备 类 型 、 设 备 型 号 、 硬 件 信息 、 操 作 系 统 版 本 、startup config, running config、VLAN 等 ， 并 能 跟踪 它们 
的 变化 。 


7) 网 络 策略 配置 可 自动 批量 下 发 路 由 表 和 防火 墙 策略 。 
8) 操作 审计 可 自动 记录 所 有 对 网 络 设备 的 变更 ， 并 提供 回 退 机 制 。 
9) 巡 检 和 合 规 检查 可 通过 内 置 的 合 规 性 检查 策略 ， 针 对 CIS、DISA、NSA， 对 系统 、 设 备 等 进行 自动 化 的 合 规 检 查 ， 并 给 出 检查 报告 。 同 时 用 户 也 可 以 定义 自己 的 合 规 策 略 。 


10) 配置 自动 化 一 般 具 有 变更 检测 和 配置 合 规 检查 的 功能 。 用 户 可 以 创建 配置 基线 ， 利 用 它 对 服务 器 进行 比较 。 配 置 基线 是 管理 员 规 定 的 适用 于 特定 环境 的 正确 配置 与 设置 信息 。 一 台 服 务 器 可 以 有 多 
个 配置 基线 。 用 户 指定 配置 基线 后 ， 就 可 以 利用 它 来 比较 服务 器 之 间 的 区 别 ， 并 查看 比较 结果 。 比 较 结果 将 给 出 每 个 服务 器 所 安装 的 组 件 以 及 两 个 服务 器 之 间 的 区 别 。 


关于 变更 检测 ， 用 户 (SHAR) 可 以 创建 基准 快照 ， 以 确定 服务 器 在 一 段 时 间 内 的 变更 情况 。 一 台 服 务 器 只 能 有 一 个 指定 的 基准 快照 。 用 户 指定 基准 快照 之 后 ， 可 以 运行 变更 检测 来 查看 变更 事件 的 
发 生 情 况 。 变 更 检测 和 系统 比较 都 可 以 生成 事件 。 


通过 传统 数据 中 心 自动 化 的 技术 ， 我 们 无 需 花 费 宝贵 的 时 间 管 理 物理 基础 架构 或 应 用 程序 ， 从 而 能 够 专注 于 创新 和 为 企业 提供 价值 。 


6.3.4 如 何 实现 目 动 化 


数据 中 心 的 工作 流 能 够 做 到 自动 化 部 署 和 执行 依赖 于 Orchestrator 架 构 的 各 个 组 件 的 功能 。 一 个 完整 的 工作 流 过 程 如 图 6-5 所 示 。 
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1) 开发 人 员 通 过 客户 端 开 发 工作 流 。 通 常客 户 端 提供 了 多 种 编程 方式 ， 有 基于 脚本 的 命令 行 ， 也 有 可 视 化 的 编程 平台 ， 而 且 还 提供 了 模拟 器 供 调试 和 测试 使 用 。 这 些 都 是 为 了 降低 开发 难度 ， 使 开 龙 人 
员 将 更 多 精力 专注 于 业务 逻辑 的 理解 和 创新 。 


通常 ， 工 作 流 的 设计 和 开发 可 以 遵循 或 者 参考 传统 工作 流 的 设计 开发 方式 ， 包 括 建 模 。 有 关 这 部 分 的 细节 ， 本 书 不 多 效 述 。 


2) 存储 工作 流 逻 辑 。Orchestrator 平 台 需 要 有 数据 库 的 支持 ， 用 于 存储 设计 开发 好 的 工作 流 及 工作 流 的 运行 配置 ， 这 些 工作 流 可 以 按照 用 户 自 定 义 的 规则 分 类 存储 ， 比 如 功能 、 执 行 方 式 、 工 作 流 优先 
级 等 ， 方 便 用 户 查找 ; 开发 人 员 也 可 以 编辑 已 经 存储 的 工作 流 ， 比 如 修改 工作 逻辑 、 修 改 属性 或 者 删除 等 。 


3) 运行 工作 流 。 一 旦 工作 流 创建 完成 ， 就 可 以 通过 控制 台 或 者 客户 端 来 启动 工作 流 。 工 作 流 启动 后 会 产生 相应 的 任务 ， 执 行 服务 器 能 够 通过 轮 询 或 者 通知 机 制 来 感知 是 否 有 可 以 执行 的 任务 需要 加 载 ， 
一 旦 有 任务 产生 ， 执 行 服务 器 就 会 加 载 任务 ， 执 行 任务 。 这 里 要 指出 一 种 特殊 的 情况 就 是 多 个 工作 流 并 发 。 执 行 服务 器 需要 具备 并 发 执行 多 个 工作 流 的 能 力 ， 而 且 为 了 能 够 增强 系统 的 稳定 性 和 可 用 性 ， 可 
以 设置 多 个 执行 服务 器 ， 多 个 服务 器 之 间 互 为 备份 且 支 持 负载 均衡 。 


工作 流 的 执行 可 以 通过 触发 机 制 来 启动 ， 触 发 机 制 可 以 理解 为 一 种 使 被 使 能 的 活动 进入 执行 状态 的 外 部 条 件 ， 可 以 分 为 自动 触发 、 人 工 触发、 消息 触发 、 事 件 触发 四 种 类 型 。 对 于 自动 触发 而 言 ， 活 动 
使 能 的 同时 就 被 触发 ， 这 种 机 制 一般 用 于 那些 通过 应 用 程序 来 自动 执行 、 不 需要 与 人 进行 交互 的 自动 型 活动 ; 人 工 触发 则 是 通过 执行 者 从 工作 流 任务 管理 器 提供 的 工作 流 任务 表 中 选择 工作 项 来 进行 触发 ， 
表 中 列 出 了 该 执行 者 可 以 触发 (已 被 使 能 ) 的 活动 实例 ， 当 执行 者 选中 某 一 项 去 执行 时 ， 该 活动 就 被 触发 ; 消息 触发 通过 消息 (事件 ) 来 触发 ， 比 如 收 到 E-mail， 收 到 外 部 的 状态 信息 ， 收 到 外 部 的 事件 
等 ; 时 间 触 发 则 是 控制 时 间 的 定时 器 来 触发 使 能 的 活动 ， 这 对 于 那些 需要 在 预订 的 时 间或 给 定时 间 间 隔 执行 的 活动 是 必 不 可 少 的， 比如 对 数据 的 备份 必须 在 每 天 晚上 12 点 执行 等 。 在 工作 流 的 图 形 化 显示 面 
板 中 ， 各 种 触发 方式 都 有 相应 的 记号 显示 。 


6.4 实例 分 析 
当前 两 个 应 用 广泛 的 私有 云 解决 方案 是 VMware vCloud Suite 和 System Center 的 工作 流 管理 。 
6.4.1 VMware vCloud Orchestrator 


1.VMware 云 计算 解决 方案 简介 


vCloud 是 VMware 公 司 推出 的 基于 VMware 虚 拟 化 技术 (包括 VMware vSphere 和 vCloud API) 的 私有 云 解 决 方案 ，VMware vCloud Suite 是 一 个 功能 全 面 的 集成 式 云 计算 基础 架构 ， 通 过 将 符合 行 
业 标 准 的 硬件 汇聚 成 资源 池 并 以 软件 定义 的 服务 方式 运行 数据 中 心 的 每 一 层 ， 经 实践 证 明 可 节省 40%~ 609% 的 资金 开销 和 运营 开销 ， 竞 现 了 VMware 软件 定义 数据 中 心 的 承诺 。 此 外 ，VMware vCloud 
Suite 内 置 的 自助 式 门户 和 目录 、 基 于 策略 的 基础 架构 和 应 用 调配 以 及 自动 化 运营 管理 能 够 让 数据 中 心 的 部 署 和 管理 更 加 方便 、 容 易 和 高 效 ， 提 高 了 IT 运 莒 的 效率 ， 减 少 了 IT 支出 。 企 业 客户 可 以 借助 业内 和 领 
先 的 服务 提供 商 、 软 件 供 应 商 以 及 VMware 的 先进 技术 来 构建 私有 云 计 算 环 境 ， 并 根据 需要 为 该 环境 无 经 部署 测试 实验 室 、 灾 难 恢复 或 简单 灵活 的 外 部 容量 。 


截至 本 书 撰写 时 ， 最 新 的 版 本 是 VMware vCloud Suite 5.5， 其 主要 组 成 部 分 如 图 6-6 所 示 。 
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图 6-6 VMware vCloud 套 件 
1) VMware vSphere: VMware 虚拟 化 平台 ， 以 原生 架构 的 ESX/ESXi Server 为 基础 ， 让 多 台 ESX Server 能 并 发 负担 更 多 个 虚拟 机 ， 同 时 还 具备 基于 策略 的 自动 化 功能 。 
2) VMware vCenter Site Recovery Manager: 用 于 数据 中 心 的 自动 规划 、 测 试 和 执行 灾难 恢复 ， 可 对 针对 所 有 虚拟 化 应 用 的 集中 式 恢复 计划 进行 自动 化 编排 和 无 中 断 测 试 。 


3) VMware vCloud Networking and Security: 借助 虚拟 化 网 络 和 安全 创建 高 效 、 敏 捷 、 可 扩展 的 逻辑 结构 ， 满 足 虚 拟 数据 中 心 的 性 能 和 伸缩 性 需求 。 它 交付 了 软件 定义 的 网 络 和 安全 ， 在 单个 解决 
方案 中 提供 了 广泛 的 服务 ， 包 括 虚拟 防火 墙 、VPN、 负 载 均 衡 和 VXLAN 扩 展 网 络 。 


4) VMware vCloud Automation Center: 云 计算 自动 化 平台 ， 提 供 策略 驱动 的 自助 式 IT， 应 用 服务 目录 发 布 和 调配 服务 ， 与 YMware vCloud Director 和 VMware vCenter Orchestrator 集 成 ， 实 现 
对 数据 中 心 的 访问 和 自动 化 管理 。 

5) VMware vCenter Operations Management Suite: 云 环境 虚拟 架构 性 能 监控 工具 ， 提 供 对 数据 中 心 的 自动 运营 管理 ， 使 用 获得 专利 的 分 析 技 术 和 集成 式 方法 实现 性 能 、 容 量 和 配置 管理 。 
vCenter Operations Management Suite 使 IT 部 门 可 以 获得 更 好 的 可 见 性 和 可 操作 的 智能 信息 ， 从 而 主动 确保 动态 虚拟 环境 和 云 计算 环境 中 的 服务 级 别 、 资 源 利用 率 优化 和 配置 合 规 性 。 

6) VMware vCloud Director: 简称 vCD， 是 一 个 具备 多 租户 和 公有 云 可 延展 性 的 虚拟 化 数据 中 心 ， 向 外 暴露 vCloud API， 用 户 可 以 通过 这 些 API 对 vCD 编 程 。 

7) VMware vFabric Application Director: 应 用 程式 管理 平台 ， 主 要 集中 于 企业 级 应 用 程序 的 配置 、 发 布 和 自动 化 部 署 。 


8) VMware vCloud Connector: VMware vSphere 客 户 端的 一 个 插件 ， 用 户 可 以 通过 这 个 插件 访问 并 管理 VMware vCloud。 


9) VMware vCenter Orchestrator: 简称 vCO， 是 本 节 中 要 讨论 的 重点 。vCO 是 包含 在 vCenter Server (如 图 6-7 所 示 ) 中 的 一 个 免费 的 工作 流程 自动 化 工具 ， 用 户 能 够 利用 这 个 工具 开发 工作 流 ， 实 
现 对 数据 中 心 的 自动 化 管理 。VMware vCenter 是 VMware 公司 开发 的 服务 器 和 虚拟 化 管理 软件 ， VMware vCenter 提 供 了 一 个 用 于 管理 VMware vSphere 环 境 的 集中 式 平台 ， 可 以 提供 对 数据 中 心 的 集中 
控制 和 检测 ， 比 如 单 点 登录 、 清 单 搜索 及 数据 中 心 的 报警 和 通知 ; 可 以 通过 vCenter 对 数据 中 心 实施 主动 式 管理 ， 比 如 利用 配置 文件 进行 标准 化 配置 ， 利 用 vCO 开 发 和 实施 工作 流 实现 对 数据 中 心 的 自动 化 
管理 ;可 以 对 虚拟 机 进行 资源 管理 ， 比 如 确定 虚拟 机 的 CPU、 内 存 、 磁 盘 和 网 络 带 宽 等 资源 的 最 小 份额 、 最 大 份额 和 定额 ， 而 且 可 以 在 虚拟 机 运行 时 修改 初始 化 参数 ， 例 如 CPU、 内 存 、 外 设 等 ; 还 可 以 对 
整个 数据 中 心 的 资源 进行 动态 分 配 ， 持 续 监 视 整 个 资源 池 的 利用 率 ， 并 根据 可 反映 业务 需要 和 不 断 变化 的 业务 重点 的 预定 义 规则 ， 在 虚拟 机 之 间 智 能 地 分 配 可 用 资源 ， 使 数据 中 心 具备 了 内 置 负载 平衡 的 能 
力 ; 其 他 功能 还 包括 虚拟 机 发 生 故障 时 的 自动 重启 ， 数 据 中 心 的 审核 跟踪 及 补丁 程序 管理 能 力 等 。 
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通过 对 以 上 模块 的 整合 ，VMware vCloud 实 现 了 以 虚拟 化 为 基础 的 软件 定义 数据 中 心 ， 为 用 户 提供 了 经 济 、 安 全 、 高 效 的 云 架 构 。 其 中 ，VvCO 作 为 数据 中 心 自动 化 的 天 键 组 件 ， 为 VMware vCloud 的 
部 署 和 管理 发 挥 着 十 分 关键 的 作用 ， 下 面 我 们 将 会 对 这 个 模块 做 更 详细 的 介绍 。 


2.VMware vCenter Orchestrator 实 现 架 构 和 功能 


vCO 的 实现 架构 是 典型 的 数据 中 心 Orchestrator 架 构 ， 其 核心 组 件 如 工作 流 引擎 、 工 作 流 客户 端 、 数 据 库 、 操 作 员 控制 台 (Web Service) 的 功能 和 我 们 在 6.2 节 介绍 的 基本 上 是 相同 的 ， 在 这 里 仪 介绍 
这 些 组 件 的 一 些 特色 。 


- 客户 端 提供 了 可 视 化 的 编程 和 调试 功能 ， 并 且 自 带 了 很 多 demo 程 序 供 参 考 ， 用 户 可 以 轻松 完成 工作 流 的 设计 、 开 发 和 测试 。 
- 数据 库 组 件 则 支持 特定 版 本 的 Microsoft SQL Server 和 Oracle。 
: VCO 服务 器 ， 也 就 是 工作 流 引 掌 ， 是 vCO 的 核心 ， 可 以 通过 两 种 方式 来 部 署 ， 一 种 是 随 着 vCentet Servet 一 起 安装 ， 另 外 一 种 则 是 单独 部 署 。 部 署 时 需要 有 目录 服务 的 支持 ， 比 如 Windows AD. 


执行 服务 器 的 工作 流 库 包括 两 种 ， 一 种 是 标准 工作 流 库 ， 如 图 6-8 中 所 示 的 XML、SSH、JDBC 以 及 用 于 访问 vCenter Server 的 vCenter 等 ，vCO 的 安装 包 包含 了 这 些 缺 省 插件 ， 用 户 无 需 手动 安装 ， 只 需 
要 手动 配置 即 可 ; 另外 一 种 则 是 第 三 方 插件 ， 需 要 用 户 自 行 安装 和 配置 ， 通 常 在 VMware 的 官方 网 站 上 会 有 这 些 插件 的 下 载 链接 和 声明 ， 比 如 NetApp 和 思科 公司 都 有 经 过 VMware 验证 的 插件 ， 这 些 插件 
支持 它们 各 自 的 硬件 平台 接口 ， 从 而 可 以 和 这 些 平 台 完 成 交互 。 


另外 ， 在 最 新 的 VCO 5.5 版 本 中 ，vCO 执 行 服务 器 已 经 能 够 支持 服务 器 集群 来 实现 负载 均衡 和 故障 转 黎 ， 并 且 支 持 利用 REST APl 来 对 其 配置 。 


目前 vCO 主 要 运行 在 Windows Server 上 ， 尚 不 支持 Linux 服 务 器 。 
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VMware vCloud 中 的 其 他 组 件 ， 比 如 vCD、vSphere 向 外 暴露 API 接 口 ，vCO 按 照 工作 流程 ， 通 过 调用 这 些 接口 来 实现 和 这 些 组 件 的 交互 ， 这 些 接口 的 调用 有 些 需要 专用 插件 的 支持 ， 有 些 (比如 Web 
Service) 则 可 以 使 用 标准 工作 流 接口 ， 比 如 利用 REST/SOAP 来 访问 。 


VCO 是 一 个 基于 不 同 角色 提供 不 同 服务 的 组 件 。vCO 中 有 三 种 不 同 的 角色 : 管理 员 、 开 发 人 员 和 最 终 用 户 。 管 理 员 对 vCO 平 台 的 所 有 功能 都 具有 完全 的 访问 权限 ; 开发 人 员 则 可 以 访问 CO 客户 端 并 且 
利用 客户 端 来 设计 、 开 发 和 测试 工作 流 ， 同 时 能 够 使 用 Web2.0 工 具 自 定义 自动 化 过 程 的 Web 前 端 最 终 用 户 则 只 拥有 访问 Web 前 端的 权限 ， 可 以 利用 Web 前 端 来 启动 、 停 止 或 者 设置 工作 流 运 行 的 策略 ， 
比如 触发 方式 ， 也 可 以 通过 Web 前 端 查看 工作 流 运行 情况 。 

通过 不 同 的 角色 利用 vCO 设 计 、 开 发 、 运 行 工作 流 ，VvCO 实 现 了 vCloud 资 源 的 整合 和 编排 ， 根 据 业 务 规则 和 应 用 程序 需求 部 署 自动 化 计划 ， 从 而 将 计划 和 策略 映射 到 业务 中 ， 并 作为 一 种 服务 机 制 在 私 
有 云 的 服务 中 交付 。 


6.4.2 System Center Orchestrator 


1.System Center 简 介 


System Center 是 微软 发 布 的 私有 云 数据 中 心 管理 软件 ， 截 至 本 书 撰写 时 ， 最 新 版 本 是 System Center 2012R2， 其 由 9 大 核心 组 件 构成 ， 包 括 : 


1) 应 用 控制 器 (System Center App Controller, SCAP) 提供 了 一 个 用 于 管理 Windows Azure 服 务 的 单一 界面 ， 数 据 中 心 管理 员 可 以 委派 定制 的 、 基 于 角色 的 私有 云 服务 (部 署 在 基于 Virtual 
Machine Manager 的 基础 架构 中 ) 或 Windows Azure 服 务 视 图 。 


2) 配置 管理 器 (System Center Configuration Manager, SCCM) 为 微软 平台 提供 完善 的 配置 管理 ， 用 于 部 署 操作 系统 、 应 用 软件 和 软件 更 新 ， 包 括 对 计算 机 软件 和 硬件 的 远程 管理 。 


3) 数据 保护 管理 器 (System Center Data Protection Manager, SCDPM) 为 服务 器 和 客户 端 产品 提供 统一 的 数据 保护 ， 包 括 数据 的 备份 和 恢复 ， 而 且 还 提供 持续 的 数据 保护 功能 。DPM 提 供 了 保 
护 IT 环境 中 虚拟 机 的 能 力 ， 甚 至 可 以 保护 在 其 中 运行 的 应 用 程序 ，DPM 通 过 单一 的 控制 台 与 System Center 进 行 整合 来 管理 所 有 的 DPM 服 务 器 。 


4) 端点 保护 (System Center Endpoint Protection, SCEP) 原名 Forefront Endpoint Protection 2012， 以 System Center 2012Configuration Manager 为 基础 构建 而 来 。 它 可 以 向 Windows 电 
脑 端点 提供 反 有 恶意 软件 和 安全 保障 能 力 。 跟 Exchange 2010 类 似 ， 其 工作 原理 是 与 SCCM 配 合 在 PC 上 安装 客户 端 并 对 Windows 防 火 墙 进行 配置 和 设置 。 


5) 操作 管理 器 (System Center Operations Manager, SCOM) 以 前 被 称 作 微软 操作 管理 器 (Microsoft Operations Manager, MOM) ， 它 主要 是 一 个 监控 解决 方案 ， 跟 Exchange 2010 类 似 ， 
可 以 捕捉 大 量 不 同 的 管理 包 。 通 过 SCOM ， 用 户 可 以 通过 一 个 单一 控制 台 监 控 服务 器 、 设 备 和 操作 。 (单一 控制 台 的 概念 是 System Center 2012 中 的 关键 环节 。) 新 功能 包括 网 络 监控 (发 现 和 监测 路 由 
器 、 交 换 机 、 网 络 接口 和 端口 等 ) 和 互联 网 信息 服务 托管 的 应 用 程序 的 监测 。 


6) 服务 管理 器 (System Center Service Manager, SCSM) 为 应 用 的 所 有 者 与 最 终 用 户 提 供 自助 服务 ， 通 过 提供 支持 流程 的 组 织 方式 ， 让 用 户 对 任务 进行 跟踪 并 支持 工作 日 志 管 理 。Service 
Manager 提 供 了 易于 设置 的 配置 管理 数据 库 (CMDB) 可 对 获取 到 的 有 关 基 础 架构 与 应 用 的 关系 实现 标准 化 。 一 旦 发 生变 动 ， 则 有 助 于 满足 持续 的 组 织 合 规 性 要 求 。Service Manager 为 System Center 
Orchestrator 与 System Center VMM 提 供 了 两 个 新 的 连接 器 ， 可 针对 核心 私有 云 场景 ， 例 如 交付 与 服务 产品 的 创建 实现 流程 自动 化 。 


7) 统一 安装 (Unified Installer) 用 于 部 署 System Center 2012 组 件 。 在 以 前 的 版 本 中 ， 用 户 不 得 不 单独 安装 每 个 所 需 的 组 件 ， 每 个 组 件 都 有 一 套 不 同 的 配置 要 求 和 设置 。Unified Installer 则 能 解决 
这 个 问题 ， 它 能 根据 用 户 所 需 进 行 自 动 配置 和 安装 。 


8) 虚拟 机 管理 器 (System Center Virtual Machine Manager, SCVMM) 用 于 管理 整个 虚拟 数据 中 心 的 服务 器 ，VMM 2012 功 能 主要 集中 于 配置 结构 资源 ， 并 具备 与 VMware 的 vSphere 管 理工 具 
配合 的 能 力 。 


9) SCO (System Center Orchestrator) 是 System Center 的 一 个 新 的 组 成 部 分 ， 微 软 公 司 于 2009 年 收购 了 Opalis， 并 将 其 更 名 为 Orchestrator， 该 工作 流程 管理 工具 通过 名 为 “Runbook” 的 用 户 
图 形 界面 来 实现 自动 化 流程 和 操作 ， 通 过 Runbook Designer，SCO 可 以 让 Runbook 完 成 复杂 的 工作 ， 这 些 Runbook 构 成 的 定制 脚本 生成 器 可 以 深入 基础 设施 内 部 。SCO 是 一 套 System Center 私 有 云 数 据 
中 心 的 流程 自动 化 管理 平台 ， 可 以 对 数据 中 心 的 IT 工作 流 进 行 统一 的 编排 和 整合 ， 提 高 操作 流程 的 可 靠 性 。 并 能 够 将 ITIL 或 MOF 等 最 佳 管理 实践 应 用 到 IT 设施 的 管理 中 ， 实 现 自动 化 的 服务 生命 周期 管理 流 
程 ， 同 时 大 幅 降 低 数 据 中 心 运营 成 本 。 


作为 System Center 中 一 个 非常 引 人 注 目的 亮点 ，SCO 实 现 了 对 数据 中 心 的 多 个 组 件 包 括 SCDPM、SCSM、SCVMM、SCCM、SCOM 的 集成 、 控 制 和 自动 化 (如 图 6-9 所 示 ) ， 实 现 对 数据 中 心 的 工 
作 流 的 统一 协调 ， 并 借 此 实现 对 事件 的 响应 、 变 更 操作 以 及 合 规 性 的 要 求 ， 实 现 数据 中 心 的 自动 化 服务 管理 。 
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2.System Center Orchestrator 的 架构 


如 图 6-10 所 示 ，SCO 主 要 由 如 下 组 件 构成 : 
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1) Runbook 服 务 器 是 运行 Runbook 实 例 的 引擎 ， 它 直接 与 Orchestration 数 据 库 进 行 通 信 ， 可 以 部 署 多 个 Runbook 服 务 器 来 提高 容量 ， 而 且 多 个 Runbook 服 务 器 之 间 可 以 实现 故障 转移 和 负载 平衡 ， 


从 而 提高 系统 的 可 用 性 ， 微 软 推荐 部 署 至 少 两 个 unbook Server， 一 个 作为 主 引擎， 另外 一 个 作为 备份 。 


2) Management 服 务 器 是 Runbook Designer 与 Orchestration 数 据 库 之 间 的 通信 层 。 


3) 利用 Orchestration 控 制 台 ， 可 以 启动 或 停止 Runbook 以 及 在 Web 浏 览 器 中 查看 实时 状态 。 


4) Orchestration 数 据 库 是 Microsoft SQL Server 数 据 库 ， 其 中 包括 Orchestrator 的 所 有 已 部 署 的 Runbook、 运 行 的 Runbook 的 状态 、 日 志文 件 和 配置 数据 。 


5) Runbook Tester 是 一 个 可 视 化 调试 工具 ， 用 于 测试 在 Runbook Designer 中 开发 的 Runbook， 开 发 人 员 可 以 利用 这 个 工具 对 Runbook 设 置 断 点 单 步 调试 ， 还 可 以 设置 执行 的 特定 输入 ， 利 用 输出 结 
果 来 验证 工作 流 的 执行 正确 与 否 ， 保 证 Runbook 在 正式 运行 之 前 得 到 充分 的 测试 。 


6) Runbook Designer (如 图 6-11 所 示 ) 是 用 于 构建 、 编 辑 和 管理 Orchestrator Runbook 的 工具 ， 这 个 工具 提 f 


一 个 类 似 Microsoft Visio 的 可 视 化 编程 界面 ， 而 且 提 供 了 大 量 的 类 库 和 Demo 脚 本 
供 开发 者 参考 使 用 ， 开 发 人 员 可 以 很 容易 就 学 会 Runbook 编 程 


。 一 个 简单 的 Runbook 示 例如 图 6-12 所 示 。 
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图 6-11 Runbook Designer 


7) Orchestrator Web 服 务 是 基于 REST (表述 性 状态 传输 ) 的 服务 ， 通 过 使 用 自 定义 应 用 程序 或 脚本 ， 此 服务 允许 自 定义 应 用 程序 连接 到 Orchestrator 以 启动 和 停止 Runbook 以 及 检索 关于 操作 的 信 
息 。Orchestration 控 制 台 使 用 此 Web 服 务 与 Orchestrator 交 互 。 
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图 6-12 一 个 简单 的 Runbook 示 例 


8) Deployment Manager 是 一 个 用 于 部 署 集成 包 (IP) 、Runbook 服 务 器 和 Runbook Designer 的 工具 。 


3.System Center Orchestrator 的 工作 流程 


通过 SCO 架 构 中 提供 的 各 个 组 件 ， 用 户 能 够 很 轻松 地 实现 工作 流 的 设计 、 构 建 、 部 署 和 运行 ， 完 成 对 数据 中 心 的 自动 化 管理 。 


(1) 工作 流 的 设计 和 构建 
Runbook 工 作 流 设计 并 没有 统一 的 标准 和 模式 


， 微 软 推荐 按照 三 个 方面 来 设计 一 个 工作 流 。 最 上 层 的 是 事件 报告 或 者 审核 跟踪 ， 每 一 个 工作 流 活动 在 设计 的 时 人 息 ， 都 需要 考虑 该 活动 是 否 需 要 报告 相应 


事件 ， 记 录 日 志 ; 中 间 层 是 工作 流 的 执行 流程 ， 每 个 工作 流 都 有 开始 点 和 结束 点 ， 流 程 中 的 活动 要 考虑 数据 的 输入 和 执行 后 的 数据 输出 ; 最 下 层 是 错误 处 理 ， 需 要 考虑 流程 中 活动 运行 发 生 错误 时 的 错误 处 
理 ， 如 果 错 误 可 以 忽略 ， 则 忽略 错误 处 理 过 程 。 


此 外 ， 微 软 的 最 佳 实践 方案 还 强调 了 工作 流 设计 时 的 一 些 要 点 ， 比 如 考虑 工作 流 的 运行 时 间 和 频率 ， 用 执行 的 任务 命名 活动 ， 用 不 同 颜色 的 链接 标识 不 同 的 执行 结果 ， 绿 色 指示 成 功 而 红色 指示 警告 或 


错误 等 。 


工作 流 的 构建 则 可 以 通过 Runbook Designer 提 供 的 可 视 化 编程 接口 来 完成 ， 主 要 步骤 包括 : 

1) 创建 Runbook， 在 Runbook 设 计 器 中 创建 空 的 Runbook 工 程 。 

2) 添加 活动 ， 可 视 化 编程 ， 利 用 鼠标 就 可 以 实现 将 活动 从 库 中 添加 到 Runbook 设 计 器 中 。 

3) 链接 活动 ， 根 据 工作 流 工作 流程 来 创建 和 配置 活动 之 间 智 能 链接 。 

4) 配置 Runbook 属 性 ， 比 如 日 程 安排 、Runbook 服 务 器 和 备用 服务 器 、 返 回 数据 、 日 志 记 录 等 。 

5) 检查 并 测试 Runbook， 利 用 Runbook Tester 测 试 工作 流 ， 确 保 其 能 够 按照 设计 的 预期 正确 运行 ， 然 后 保存 更 改 并 签 入 (Check In) Runbook, 


通过 以 上 步骤 ， 就 可 以 创建 一 个 完整 的 工作 流 。 用 户 需 要 对 这 个 工作 流 做 修改 时 ， 只 需要 签 出 (Check Out) 工作 流 ， 就 可 以 进行 。 为 了 保证 Runbook 的 编辑 和 修改 不 发 生 版 本 混乱 ，Runbook 的 版 
本 控制 规定 在 一 定时 间 内 ， 一 个 工作 流 只 能 允许 被 一 个 用 户 修改 。 


(2) 工作 流 的 部 署 和 执行 


工作 流 的 部 署 首先 需要 签 入 Runbook， 其 功能 是 将 Runbook 提 交 到 Orchestration 数 据 库 。 用 户 可 以 使 用 Runbook Designer 或 Orchestration 控 制 台 启 动 和 停止 Runbook。 若 要 运行 该 Runbook， 则 
需要 为 其 指定 一 个 主 Runbook 服 务 器 以 及 一 个 或 多 个 备用 服务 器 ， 如 果 主 服务 器 不 可 用 ， 则 这 些 备用 服务 器 可 以 处 理 Runbook。 


启动 Runbook 的 请 求 会 创建 一 个 存储 在 Orchestration 数 据 库 中 的 “作业 ”，Runbook 服 务 器 上 的 服务 会 持续 监视 Orchestration 数 据 库 中 是 否 存 在 它 可 以 处 理 的 作业 。 当 Runbook 服 务 器 检测 到 作业 
时 ， 它 会 记录 它 正 在 处 理 该 作业 ， 并 在 本 地 复制 Runbook， 同 时 记录 这 个 正在 运行 的 Runbook 实 例 ， 然 后 开始 处 理 该 Runbook。 用 户 可 以 创建 多 个 Runbook 请 求 ， 这 意味 着 一 个 Runbook 可 以 具有 多 个 作 
X, 


当 Runbook 服 务 器 处 理 作 业 时 ， 会 通过 在 本 地 创建 Runbook 副 本 的 方式 创建 Runbook 的 “实例 ”， 然 后 根据 所 包括 的 工作 流 逻辑 执行 Runbook 中 定义 的 操作 。 状 态 信息 、 活 动 结果 和 数据 记录 将 会 保 
存在 Orchestration 数 据 库 中 ， 以 便 你 可 以 监视 Runbook 的 实时 状态 和 历史 状态 。 


SCO 作 为 Microsoft System Center 的 一 个 非常 重要 的 组 成 部 分 ， 其 最 大 的 亮点 莫 过 于 Runbook， 其 功能 强大 ， 操 作 简 单 ， 易 学 易 懂 ， 部 署 方便 ， 用 户 可 以 很 轻松 就 掌握 数据 中 心 管理 的 自 定义 功能 ， 
并 利用 其 完成 对 数据 中 心 的 集中 控制 和 自动 管理 。SCO 使 得 System Center 的 管理 也 具备 了 软件 定义 的 能 力 ， 大 大 增强 了 数据 中 心 的 服务 交付 能 力 。 


第 7 草 ”软件 定义 数据 中 心 的 安全 


和 传统 数据 中 心 相 比 ， 软 件 定义 数据 中 心 (SDDC) 在 安全 方面 存在 新 的 需求 和 挑战 。 由 于 在 一 个 SDDC 数 据 中 心中 ， 物 理 资源 (例如 计算 、 网 络 、 存 储 等 ) 经 过 软件 抽象 、 包 装 以 及 协调 管理 后 再 提供 
各 类 服务 给 数据 中 心 的 用 户 (简称 用 户 或 者 租户 ) ， 那 么 用 户 所 观察 到 和 使 用 的 资源 大 多 数 情 况 下 已 经 不 是 物理 资源 ， 而 是 逻辑 资源 或 者 虚拟 资源 ， 只 有 SDDC 的 管理 员 (简称 管理 员 ) 才能 看 到 真实 的 物 
理 资 源 。 显 然 不 同 资源 的 拥有 者 对 于 安全 的 需求 是 不 一 样 的 ， 管 理 员 最 关心 的 是 SDDC 物 理 资源 的 安全 性 ， 如 物理 资产 是 否 丢 失 ; 而 用 户 关心 的 是 他 持 有 的 逻辑 或 者 虚拟 资源 的 安全 性 ， 如 数据 的 安全 性 。 
本 章 将 首先 介绍 SDDC 的 安全 设计 原则 ， 接 着 阐述 软件 栈 中 各 层 的 安全 性 需求 、 挑 战 和 相关 的 解决 方案 。 


7.1 数据 中 心安 全 设计 原则 

在 SDDC 中 ， 由 于 实际 的 物理 资源 (诸如 计算 、 网 络 、 存 储 等 资源 ) 都 被 软件 定义 ， 整 个 SDDC 的 安全 需求 和 管理 是 比较 复杂 的 。 为 了 阐述 整个 SDDC 安 全 设计 的 准则 ， 有 必要 对 SDDC 的 软件 栈 进行 分 
层 。 如 图 7-1 所 示 ，SDDC 中 软件 栈 可 大 致 分 为 4 屋 ， 让 我 们 回顾 一 下 各 层 的 功能 。 

- 物理 设施 层 : 提供 各 类 具体 的 基础 物理 设施 和 资源 (诸如 服务 器 、 存 储 设 备 、 网 络 设备 等 ) 。 

C 软件 定义 的 计算 、 网 络 和 存储 层 : 通过 软件 对 各 类 物理 资源 进行 抽象 化 ， 并 提供 接口 给 上 层 的 软件 资源 协调 层 等 进行 各 类 资源 的 调度 、 管 理 。 

软件 资源 协调 层 : 对 抽象 化 的 计算 、 网 络 、 存 储 等 资源 进行 统一 调度 和 管理 ， 并 提供 接口 给 服务 层 的 各 类 服务 。 


服务 层 : 构建 在 整个 软件 资源 协调 层 之 上 ， 利 用 软件 资源 协调 层 提 供 的 接口 构建 各 类 服务 给 用 户 。 
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图 7-1 SDDC 软 件 栈 分 层 


基于 SDDC 软 件 层 的 架构 、 一 些 已 有 的 安全 系统 设计 原则 以 及 传统 数据 中 心安 全 设计 经 验 ， 笔 者 认为 SDDC 重 要 的 安全 设计 原则 有 以 下 几 点 : 


. 安全 是 分 层 的 。 每 一 层 的 安全 需求 都 是 不 一 样 的 ， 因 为 每 层 要 保护 的 资源 或 者 对 象 不 一 样 。 此 外 攻击 者 的 手段 也 千差万别 ， 最 终 导 致 了 安全 策略 和 模型 的 不 同 。 最 重要 的 是 层 与 层 之 间 的 安全 有 依赖 
关系 ， 一 般 来 讲 上 层 的 安全 机 制 应 尽量 利用 下 一 层 所 提供 的 安全 机 制 接口 ， 以 保证 安全 机 制 的 一 致 性 和 可 利用 性 。 


- 安全 模型 。 由 于 不 同 层 的 安全 机 制 不 一 样 ， 我 们 对 每 一 层 都 需要 建立 有 效 的 安全 模型 。 笔 者 认为 安全 模型 的 建立 依赖 于 以 下 三 个 方面 的 因素 (如 图 7-2 所 示 ) : 要 约束 和 建立 安全 模型 的 资源 或 者 对 
象 ; 被 保护 资源 或 对 象 的 安全 目标 ; 可 能 的 攻击 方式 或 手段 。 这 三 者 共同 决定 将 采用 何 种 安全 模型 和 策略 。 所 以 我 们 不 能 简单 地 论断 一 个 系统 是 安全 的 ， 另 外 一 个 系统 是 不 安全 的 ， 而 一 定 要 综合 以 上 三 点 


进行 判断 。 简 而 言 之 ， 判 断 一 个 安全 模型 是 否 有 效 ， 需 度量 安全 策略 是 否 能 阻止 尽 可 能 多 的 攻击 方式 ， 以 达到 保护 资源 或 对 象 的 安全 需求 。 不 过 现实 中 ， 大 多 数 安全 模型 往往 屏蔽 了 Ao% (比如 A 二 99.999) 
以 上 的 攻击 ， 未 屏蔽 的 《100 一 A) % 的 攻击 虽然 比较 稀少 ,但 是 造成 的 危害 性 (例如 经 济 损失 ) 却 是 巨大 的 。 
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图 7-2 ”安全 模型 的 建立 


- 最 小 权限 原则 (Principle of Least Privilege) 。 在 一 个 系统 中 ， 相 关 的 资源 和 对 象 总 有 管理 者 、 使 用 者 。 所 谓 最 小 权限 原则 ， 就 是 对 于 相关 的 使 用 者 和 管理 者 赋予 处 理 能 处 理 该 资源 的 最 小 权限 。 权 
限 的 过 度 给 予 ， 容 易 造成 安全 的 隐患 。 比 如 在 一 个 Linux 系 统 中 ，root 这 个 超级 用 户 可 以 对 整个 系统 做 任何 操作 。 对 于 普通 的 用 户 来 讲 ， 显 然 没有 必要 直接 赋予 和 toot 用 户 等 相等 价 的 权限 ， 否 则 系统 的 服务 或 
者 其 他 一 些 资 源 会 被 该 普通 用 户 滥用 。 


安全 和 性 能 之 间 的 平衡 。 评 价 一 个 安全 机 制 有 效 ， 不 仅 需要 评 断 它 是 否 满足 了 既定 的 安全 需求 ， 还 需要 考量 引入 了 该 安全 机 制 以 后 ， 对 整个 系统 性 能 的 影响 。 也 就 是 说 如 果 该 安全 机 制 的 引入 导致 整 


个 系统 性 能 大 幅 下 降 ， 那 么 这 将 影响 整个 系统 所 支撑 的 正常 业务 。 一 旦 这 种 情况 出 现 ， 就 必须 寻找 其 他 可 替换 的 安全 机 制 。 
- 安全 机 制 的 多 样 化 和 协同 性 。 为 了 达到 既定 的 安全 目标 ， 必 须 采 用 多 样 化 的 安全 机 制 ， 并 整合 这 些 安全 机 制 进行 协同 工作 。 例 如 用 户 和 访问 管理 (Identity and Access Management, IAM) 、 用 户 安 全 
志 系 统 (User Log System) 和 入 侵 检 测 系 统 (Intrusion Detection System) 可 以 联合 在 一 起 进行 工作 。 


- 安全 机 制 的 模块 化 和 接口 化 。 当 安全 机 制 的 设计 被 确定 ， 具 体 的 实现 必须 模块 化 ， 和 其 他 业务 这 辑 尽量 松 辜 合 ， 提 供 相应 的 接口 。 这 样 的 设计 ， 有 助 于 安全 机 制 的 升级 和 后 续 维护 ， 使 得 安全 机 制 升 
级 后 ， 尽 量 不 影响 原 有 业务 的 正常 工作 。 


. 安全 机 制 自 检测 。 设 计 的 安全 机 制 ， 需 有 自 检 测 功能 。 这 样 一 旦 整个 安全 系统 中 有 某 个 组 件 出 现 故 障 ， 可 以 进行 及 时 预警 或 者 后 续 修 复 ， 使 得 暴露 的 安全 漏洞 所 导致 的 可 攻击 性 或 者 利用 窗口 时 间 降 
低 到 最 小 o 


. 安全 机 制 的 可 审查 和 追溯 性 。 安 全 机 制 所 处 理 的 相关 安全 事件 需要 被 记录 ， 以 便于 后 续 的 审查 和 追 滴 。 一 些 错 误 处 理 ( 无 论 是 false negative 还 是 false positive) 的 日 志 ， 有 助 于 安全 机 制 后 续 的 升级 。 


- 安全 机 制 的 流程 的 文档 化 。 由 于 相关 的 安全 系统 不 能 实现 完全 自动 化 ， 在 安全 系统 出 现 问题 或 者 故障 的 时 候 ， 难 免 需要 人 力 的 参与 。 为 此 必须 把 整个 安全 机 制 的 正常 流程 和 应 急 处 理 流程 进行 文档 
化 ， 以 便于 从 事 相 关 安 全 方面 的 管理 员 ， 随 时 查阅 和 进行 后 续 的 处 理 。 


7.2 物理 基础 设施 的 安全 


无 论 是 传统 数据 中 心 还 是 软件 定义 数据 中 心 ， 基 础 设施 的 安全 管理 必 不 可 少 。 图 7-3 详 细 说 明了 确保 物理 设施 安全 的 一 些 方法 学 ， 主 要 包括 : 威慑 方法 (Deterrence Method) 、 入 侵 检 测 (Intrusion 
Detection and Electronic Surveillance) 、 访 问 控制 (Access Control) 以 及 保安 人 员 (Security Personnel) 等 。 


物理 设施 方面 的 安全 


入 侵 检测 
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图 7-3 ”数据 中 心 物 理 安 全 措施 


威慑 方法 : 威慑 潜在 的 攻击 者 不 要 试图 进行 相关 攻击 ， 因 为 防护 的 严密 ， 成 功 地 攻击 是 比较 难 的 。 常 用 的 威慑 方法 包括 : 物理 屏障 ， 诸 如 高 墙 、 行 人 路 障 或 者 车 辆 路 障 ; 天 然 监视 屏障 ， 诸 如 把 数据 
中 心 建立 在 空旷 、 聊 无 人 烟 的 地 方 ， 这 样 很 容易 发 现 试图 接近 物理 数据 中 心 的 人 ; 安全 照明 ， 如 在 所 有 可 能 进出 口 的 地 方 提供 安全 照明 灯光 ， 以 确保 在 黑暗 之 中 及 时 发 现 进 出 数据 中 心 的 人 。 


> 入 侵 检 测 和 电子 监控 : 及 时 发 现 数据 中 心 的 非法 入 侵 者 ， 并 告知 管理 者 。 常 用 的 方法 包括 : 四 报警 系统 和 传感器 ， 通 常 这 类 装置 会 和 威慑 方法 配合 在 一 起 工作 ， 一 旦 非法 入 侵 数 据 中 心 的 行为 被 发 
现 ， 传 感 器 会 被 触发 ， 并 且 报 警 系 统 会 被 启用 ; 四 闭路 电视 (Closed-Citcuit Television) ， 在 数据 中 心 关 键 位 置 安装 监控 摄像 头 ， 把 这 些 位 置 发 生 的 一 切 行为 记录 并 存放 下 来 ， 能 够 随时 查看 。 


. 访问 控制 系统 : 通过 一 些 安全 部 件 监控 和 管理 数据 中 心 资源 的 访问 。 常 见 的 访问 控制 系统 有 : 机 械 访 问 控制 系统 ， 诸 如 安全 门 、 阅 、 锁 等 ; 电子 访问 控制 系统 ， 诸 如 门禁 卡 系统 、 生 物 指纹 等 电子 识 
别 系 统 等 ; 身份 识别 系统 ， 对 数据 中 心 的 保安 人 员 所 使 用 的 系统 ， 用 以 识别 保安 人 员 ， 并 制定 相关 策略 并 强制 执行 


TREAT: 暂时 还 是 数据 中 心 不 可 缺少 的 一 部 分 ， 因 为 技术 还 没有 成 熟 到 排除 人 力 的 参与 ， 完 全 依靠 技术 实现 的 自动 化 管理 的 数据 中 心 暂 时 还 没有 出 现 ， 但 有 一 些 数据 中 心 (WES) 正 朝 着 这 个 


7.3 ”软件 定义 层 的 安全 


SDDC 的 基础 设施 软件 定义 层 通过 对 物理 资源 的 管理 ， 主 要 利用 服务 器 虚拟 化 、 存 储 虚 拟 化 、 网 络 虚 拟 化 等 一 系列 其 他 技术 抽象 化 计算 、 网 络 或 者 存储 资源 ， 以 供 软件 协调 层 进一步 调度 和 管理 。 在 软 
件 定义 层 存 在 很 多 安全 相关 的 问题 ， 直 接 影响 到 软件 资源 协调 层 对 上 层 提 供 的 各 种 服务 。 前 面 提 到 ， 安 全 是 分 层 的 ， 层 与 层 之 间 的 安全 存在 一 定 依赖 关系 。 一 般 来 讲 ， 上 层 的 安全 决定 于 下 层 安 全 的 实现 ， 
原因 在 于 下 层 有 更 高 的 权限 。 如 果 下 层 权 限 未 进行 合理 的 限制 ， 那 么 一 旦 下 层 的 安全 设施 被 打破 ， 上 层 所 设 定 的 一 系列 安全 措施 (例如 安全 策略 ) 将 毁 于 一 旦 。 


7.33 安全 的 计算 


基础 设施 软件 定义 层 主 要 通过 服务 器 虚拟 化 或 者 其 他 一 些 非 虚拟 化 技术 来 抽象 化 物理 计算 资源 以 提供 逻辑 上 隔离 的 计算 资源 。 由 于 服务 器 虚拟 化 技术 在 资源 整合 、 管 理 、 利 用 等 各 个 方面 的 优势 ， 主 流 
的 基础 设施 软件 定义 层 都 采用 该 技术 ， 人 在 这 里 我 们 主要 讨论 在 Hypervisor 或 者 VMM 存 在 情况 下 ， 软 件 定义 计算 资源 的 安全 性 挑战 。 对 于 不 采用 主流 虚拟 化 技术 ， 但 使 用 传统 方式 提供 逻辑 计算 资源 的 安全 
性 ， 不 在 本 章 讨 论 之 列 。 


1. 安 全 计算 的 挑战 


如 果 一 个 SDDC 完 全 为 内 部 用 户 服 务 ， 那 么 计算 安全 的 需求 相对 较 低 。 但 如 果 一 个 SDDC 对 外 提供 服务 ， 安 全 需求 就 提高 了 。 由 于 用 户 使 用 的 是 SDDC 提 供 的 计算 资源 ， 用 户 势必 关心 在 所 租赁 的 计算 资 
源 中 从 事业 务 计算 的 安全 性 。 此 外 在 SDDC 提 供 的 不 同 服务 中 ,相关 的 计算 安全 需求 也 是 不 一 样 的 。 例 如 SDDC 提 供 的 以 下 三 种 服务 的 安全 服务 ， 如 图 7-4 所 示 。 
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图 7-4 SDDC 中 IaaS、PaaS、SaaS 的 软件 栈 


1) laaS (Infrastructure as a Service) : 由 于 用 户 掌控 了 所 分 配 的 虚拟 机 资源 (Virtual Machine) ， 可 在 (多 个 ) 虚拟 机 内 部 署 自 己 的 中 间 件 或 者 服务 软件 。 那 么 对 于 一 个 有 安全 计算 需求 的 用 户 来 
讲 : 底层 的 服务 器 和 虚拟 机 监控 器 都 是 可 信和 的 ; 不 同 用 户 间 的 虚拟 机 是 完全 隔离 的 ;假设 SDDC 中 的 管理 员 是 不 可 信和 的 ,不 仅 需 要 在 法 律 上 建立 约束 力 (例如 签约 SLA) ， 另 外 还 需要 在 技术 上 加 以 监控 和 证 
明 SDDC 的 管理 员 没有 非法 使 用 用 户 的 数据 。 


2) PaaS (Platform as a Service) : 主要 是 数据 中 心 根据 不 同 的 用 户 需求 构建 不 同 的 软件 运行 平台 ， 例 如 微软 的 Azure、 谷 歌 的 App Engine (已 经 关闭 ， 变 成 Google Cloud Platform) 、 新 浪 的 
App Engine、Pivital 的 CloudFoundry 等 。 用 户 不 需要 构建 平台 (例如 通过 虚拟 机 构建 一 个 Hadoop 平 台 ) ， 而 是 直接 在 SDDC 提 供 的 平台 和 各 种 接口 下 进行 编程 ， 并 且 部 署 服务 。 例 如 PaaS 会 提供 相应 的 
数据 库 、 运 行 环境 以 及 各 种 中 间 件 软件 。 因 此 有 安全 计算 的 用 户 关心 以 下 的 安全 问题 @OSDDC 提 供 的 平台 、 服 务 以 及 下 层 软件 栈 都 是 可 信 的 。 如 果 一 个 Paas 架 构 在 laas 上 ， 根 据 “ 安 全 是 分 层 的 ”原则 ， 
有 一 部 分 安全 的 问题 由 laas 解 决 。@ 同 平台 不 同 用 户 间 的 数据 和 服务 保持 完全 隔离 。 


3) SaaS (Software as a Service) : 软件 即 服 务 。 客 户 和 软件 服务 提供 商 签署 协议 ， 用 户 数据 的 安全 和 软件 服务 商 相关 ， 和 SDDC 没 有 直接 的 关系 。 常 用 的 软件 即 服 务 ， 可 考虑 各 大 服务 商 的 Email 业 
务 (如 谷歌 的 Gmail、 微 软 的 Hotmail、 网 易 的 163 邮 箱 等 ) 。 


通过 党 用 的 laas、PaaS、saas 这 三 类 服务 对 安全 的 需求 ， 映 射 到 9DDC 计 算 基 础 设施 的 软件 定义 层 ， 则 需要 解决 以 下 安全 的 问题 (依赖 于 用 户 的 需求 ) : 
证 明 服 务 器 和 部 署 在 服务 器 上 的 VMM 是 可 信 的 。 
: VMM 需 要 有 能 力 隔离 不 同 用 户 的 虚拟 机 。 


对 于 PaaS ，VMM 需 要 提供 一 些 接口 保护 PaaS 服 务 所 在 虚拟 机 的 操作 系统 ， 以 确保 PaaS 能 正常 运行 ， 防 止 在 运行 过 程 中 被 窃取 数据 。 


2. 安 全 计算 相关 的 技术 
(1) 服务 器 的 可 信 性 


服务 器 中 的 硬件 (诸如 CPU、 内 存 、 主 板 ) 都 是 由 正规 厂商 生产 ， 有 唯一 的 标识 ， 一 般 不 存在 设计 的 硬件 存在 后 门 来 穷 取 用 户 数据 的 情况 。 但 是 通常 服务 器 不 搭载 相关 的 安全 模块 ， 就 无 法 从 硬件 上 提 
供 一 个 根 信任 (Root of Trust) ， 即 可 信 计 算 基 础 (简称 可 信 基 础 ) 来 解决 安全 问题 。 


为 此 可 信 计 算 组 织 TCG (Trusted Computing Group) 提出 了 可 信 计 算 的 概念 ， 在 硬件 上 搭载 一 个 可 信 计 算 模 块 ， 例 如 TPM (Trusted Platform Module) ， 然 后 通过 一 系列 的 链 行 认证 (需要 各 层 
软件 的 配合 ) ， 来 保障 运行 在 该 服务 器 上 软件 的 安全 性 ， 如 图 7-5 所 示 。 例 如 服务 器 上 运行 了 一 个 Linux 系 统 ， 则 系统 启动 的 时 候 ，BIOS 会 对 自身 的 代码 进行 度量 (包括 firmware 中 的 每 一 个 ROM) ， 然 后 
把 代码 Hash 值 放 入 TPM 中 ; 然后 度量 OS loader 的 代码 ， 把 代码 的 Hash 增 量 式 地 放 入 TPM 中 ， 接 着 控制 权 交 给 OS loader; OS loader 度 量 OS 内 核 的 代码 ， 把 代码 的 Hash 增 量 式 地 放 入 TPM 中 ， 然 后 控制 


权 交 给 OS 内 核 ; OS 内 核 度量 各 种 服务 进程 的 代码 ， 然 后 把 代码 的 Hash 增 量 式 地 放 入 TPM 中 ， 然 后 控制 权 交 给 相关 服务 进程 ， 最 后 服务 进程 会 度量 需要 保护 的 应 用 (Application) 的 代码 ， 然 后 把 相关 
Hash 代 码 存 入 TPM 中 。 这 一 系列 的 认证 一 环 扣 一 环 ， 从 BIOS、OS loader、0OS 内 核 OS 其 他 服务 模块 到 应 用 。 最 终 应 用 可 使 用 TPM 提 供 的 一 些 密 钥 和 加 解密 相关 的 计算 服务 。 
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图 7-5 ”TCG 提出 的 链 式 认证 


TPM 提 出 的 链 式 认证 虽然 比较 完美 ,但 是 实施 起 来 比较 麻烦 ， 构 建 一 条 从 硬件 到 应 用 的 安全 链 路 ， 是 比较 困难 的 ， 这 就 是 为 什么 TCG 的 可 信 计 算 在 用 户 终端 实施 失败 的 原因 。 但 是 把 可 信 计 算 的 概念 放 
到 SDDC 的 服务 器 端 ， 则 大 有 作为 。 我 们 不 需要 构建 一 个 从 硬件 到 应 用 的 安全 链 路 ， 而 是 构建 从 硬件 到 VMM 的 安全 链 路 ， 使 得 具有 最 高 权限 的 VMM 成 为 一 个 可 信 的 安全 软件 。 


(2) VMM 的 可 信任 和 完整 性 


由 于 VMM 是 除 BIOS 以 外 控制 服务 器 的 最 高 特权 软件 ， 其 服务 甚至 管理 着 位 于 上 层 的 虚拟 机 。 为 此 在 VMM 启动 的 时 候 ， 必 须 进 行 静态 的 度量 ， 以 保证 VMM 的 完整 性 ; 另外 在 VMM 运 行 过 程 中 ， 也 需 
要 有 相关 动态 度量 和 监控 的 方法 ， 以 防止 被 恶意 软件 攻击 后 ， 植 入 相关 的 Rootkit。 因 为 一 旦 此 类 事件 发 生 ， 恶 意 软 件 有 可 能 通过 VM M 获 得 正在 运行 的 各 个 虚拟 机 的 内 存 数据 。 


结合 可 信 计 算 的 概念 ，TPM 通 过 链 式 认证 度量 VMM 。 相 对 于 操作 系统 内 核 ，VMM 的 代码 在 数量 级 上 小 了 一 个 级 别 ， 但 是 还 是 比较 复杂 的 。 秉 承 着 越 小 越 容 易 度量 和 信任 的 原则 ， 我 们 必须 对 VM MH 
行 瘦身 ， 来 构建 一 个 一 个 足够 小 的 TCB。 让 我 们 回顾 一 下 ，VMM 可 以 分 为 Type I 和 Type 工 。 所 谓 Type 工 的 VMM 直 接 运 行 在 裸 机 上 ， 控 制 着 折 有 的 物理 资源 ，Type 工 的 VM M 一 般 只 运行 虚拟 机 而 不 运行 
其 他 的 进程 ， 例 如 Xen VMM 就 是 典型 type IVMM; Type 工 的 VM M 不 直接 运行 在 裸 机 上 ， 而 是 运行 在 一 个 操作 系统 上 ，VMM 作 为 ODS 的 一 个 进程 (在 ODS 内 存在 所 对 应 的 内 核 模 块 ) 提供 VM 的 服务 。 这 种 
情况 下 VM M 不 控制 系统 所 有 的 资源 ， 例 如 KVM+QEMU、VMware workstation 就 是 典型 的 Type II VMM., Type I 和 Type 工 VMM 启 动 时 的 安全 度量 略 有 区 别 。 图 7-6 给 出 了 Type I VMM 的 度量 ， 从 
BIOS 到 VMM 即 可 。 但 是 对 于 Type 匡 的 VMM， 如 图 7-7 所 示 ， 我 们 必须 从 BIOS 到 OS， 再 从 OS 到 VMM 进 行 度量 ， 度 量 的 链 路 边 变 长 了 ， 另 外 OS 是 比较 复杂 的 ， 动 态度 量 是 非常 困难 的 。 但 是 Type 工 的 
VMM 也 并 不 小 ,一 般 Type I 的 VM M 都 存在 高 特权 级 的 VM (例如 Xen 的 Domain0， 以 及 提供 I/O 服 务 的 stub Domain) 来 提供 虚拟 机 的 管理 和 |/O 〇 服务 ， 对 这 些 VM 也 要 进行 度量 ， 当 然 无 论 是 OS 还 是 提 
供 服务 的 VM ， 我 们 都 可 以 进行 裁剪 来 保证 其 代码 的 可 度量 性 ， 以 符合 前 面 所 提 到 的 最 小 权限 原则 。 
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图 7-6 TypeIVMIM 的 安全 设计 
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图 7-7 TypeIVMM 安 全 设计 


动态 度量 VMM 的 状态 是 比较 困难 的 ， 原 因 有 两 点 : @ 如 果 VMM 位 于 裸 机 上 ( 即 Type | 的 VMM) ， 那 么 谁 来 度量 该 VM M 完 整 性 。 可 能 解决 的 方案 是 在 硬件 上 接 上 另外 的 安全 设备 ， 但 是 这 样 代价 比 较 
大 。@ 怎 么 确定 一 个 VMM 处 于 正常 的 状态 ， 问 题 可 以 转化 为 怎么 判断 一 个 正常 的 软件 按照 既定 的 轨道 运行 。 为 了 解决 第 1 个 问题 ， 我 们 可 以 采用 许 套 虚拟 化 (Nested Virtualization) 的 方法 ， 即 在 一 个 服 
务 型 的 较 大 的 VMM 下 ， 运 行 一 个 小 的 VMM ， 用 小 的 VMM 对 大 的 VMM 进 行 度量 ， 当 然 这 样 的 方法 可 能 导致 系统 有 较 大 的 额外 开销 。 例 如 本 来 虚拟 化 在 MO 方面 就 有 较 大 的 开销 ， 菊 套 虚拟 化 下 的 MO 性 能 
会 更 差 ， 可 能 违背 安全 和 性 能 之 间 的 平衡 原则 。 小 的 VMM 虽 然 缩小 了 TCB， 但 是 由 谁 来 对 它 进 行动 态度 量 依然 是 一 个 问题 ， 除 非 假设 小 的 VM M 是 可 信 的 。 


(3) 虚拟 机 隔离 的 问题 


VMM 设 计 的 初衷 是 资源 整合 ， 通 过 虚拟 化 技术 把 一 台 服 务 器 划分 为 若干 个 独立 的 虚拟 机 ， 每 个 虚拟 机 上 可 以 运行 不 同 的 操作 系统 和 应 用 ， 这 样 的 方法 不 仪 达到 了 用 户 和 用 户 的 隔离 、 应 用 和 应 用 的 隔 
离 ， 还 提高 了 系统 利用 率 。 但 是 虚拟 化 的 隔离 还 不 是 很 完美 (如 图 7-6 和 图 7-7 所 示 ) ， 共 宿 在 一 个 物理 节点 上 的 VM 由 于 资源 的 共享 和 竞争 ， 依 然 容 易 发 生 一 些 可 能 的 攻击 ， 诸 如 Side Channe| 或 者 Covert 
Channel 攻 击 。 


Side Channel 即 隐蔽 通道 ， 大 多 数 都 由 时 间 信 道 构成 。 基 于 时 间 的 Side Channel 发 生 的 原因 如 下 : 当 资 源 R 被 实体 A (诸如 进程 、 线 程 或 者 虚拟 机 ) 访问 的 时 候 ， 人 存在 访问 时 间 T0; 当 一 个 资源 被 多 个 
实体 共享 ， 那 么 A 实体 访问 资源 R 的 时 间 变 为 T1。 一 般 来 讲 T1 的 值 会 大 于 TO 的 值 。 那 么 实体 A 通过 访问 资源 R 的 时 间 T 的 变化 ， 就 可 以 推断 出 有 无 其 他 实体 也 在 访问 资源 R。 对 所 有 访问 的 时 间 T 进 行 建 模 ， 并 
且 如 果 已 经 了 解 另外 一 个 实体 的 模式 ， 那 么 通过 时 间 T 的 变化 ， 就 可 以 反 推 出 对 方 实体 的 一 些 行为 。 所 谓 Covert Channel 是 指 ， 两 个 实体 为 了 互相 传递 信息 ， 不 被 第 三 者 知道 ， 而 构建 的 一 个 协同 通道 。 


举 个 Side Channel 的 例子 ， 虚 拟 化 环境 下 ， 一 台 物 理 机 器 的 CPU 会 被 多 个 虚拟 机 共享 ， 一 般 来 讲 若 干 个 虚拟 机 会 共享 物理 CPU 中 的 一 些 缓存 (例如 二 级 、 三 级 ) 。 那 么 CPU 缓存 就 是 一 个 共享 资源 ， 被 
多 个 虚拟 机 共享 和 竞争 。 假 设 有 两 个 虚拟 机 C1、C2 共 享 某 个 二 级 缓存 ， 如 果 C2 中 运行 的 是 一 个 加 解密 相关 的 服务 ， 那 么 C1 通过 观察 己方 程序 缓存 访问 的 时 间 ， 依 据 C2 的 加 解密 算法 ， 推 测 该 密 钥 的 使 用 方 
法 ， 从 而 降低 破解 C2 中 密 钥 的 难度 。 


同 理 ， 虚 拟 机 C1 和 C2 如 果 想 通过 共享 的 CPU 缓存 传递 一 些 信息 ， 那 么 可 以 这 样 做 : C1 按照 固有 的 模式 去 访问 CPU 缓 存 ， 并 且 观 察 访问 所 消耗 的 时 间 。 显 然 如 果 没 有 C2 的 影响 ,该 时 间 基 本 是 一 个 小 范 
围 内 波动 的 值 ， 如 果 一 旦 受到 影响 该 值 会 增加 。 那 么 C2 如 果 想 通过 CPU 缓存 传递 数据 ， 可 以 采用 这 样 的 方式 : 如 果 想 传递 一 个 比特 的 数据 “0”， 则 不 做 任何 行为 ， 如 果 想 传递 一 个 比特 的 数据 “1”， 则 访 
问 CPU 缓 存 。 而 C1 只 是 不 断 度量 CPU 缓 存 访问 的 时 间 ， 来 确定 接受 的 数据 是 “0” 还 是 “1”。 当 然 C1 和 C2 需要 沟通 好 一 个 时 间 窗 口 (Time Window) 和 一 些 可 靠 的 协议 来 进行 数据 传输 ， 以 提高 信道 的 速 


虚拟 化 平台 的 Side Channel 切 实 存在 ，2009 年 计算 机 学 者 Ristenpart 等 人 在 Amazon EC2 平 台 上 进行 了 side Channel 相 关 的 实验 ， 特 别 证 明了 虚拟 化 技术 在 CPU 缓存 共享 方面 的 薄弱 点 可 被 利用 ; 接 
着 后 续 的 学 者 们 提出 了 一 系列 的 方案 来 防止 该 攻击 ， 当 然 也 进行 相关 的 工作 来 更 有 效 地 防止 CPU 缓存 Side Channel 攻 击 以 及 其 他 内 人 存 和 MO 相关 的 Side 或 者 Covert Channel 的 攻击 。 


系统 化 的 防止 Side Channel 或 者 Covert Channel 的 攻击 还 是 很 有 难度 的 ， 原 则 性 来 讲 ， 资 源 共享 越 少 ， 这 类 攻击 能 实现 的 窗口 就 越 小 。 为 此 对 于 CPU， 内 存 以 及 1/O 等 方面 的 资源 使 用 可 以 进行 如 下 的 
控制 


| VMM 需 要 对 物理 的 CPU 缓存 的 使 用 进行 更 细 粒 度 的 划分 和 访问 控制 ， 使 得 每 一 个 虚拟 机 占用 独 享 的 物理 CPU 缓存 ， 并 且 进 行 严 格 监控 。 


对 于 内 存 总 线 、I/O 总 线 和 一 些 外 围 设备 的 共享 。 尽量 使 用 硬件 厂商 提供 的 硬件 支持 的 虚拟 化 技术 ， 例 如 Intel 的 VT-d 或 者 SR-IOV 进 行 细 粒度 的 I/ 〇 资源 划分 ， 以 防止 共享 的 发 生 。 如 没有 硬件 支持 ， 


可 以 使 用 一 些 1/O 〇 方面 的 安全 措施 。 
政策 方面 ， 对 安全 有 特定 需求 的 用 户 虚 拟 机 ， 可 指定 策略 ， 使 其 不 与 其 他 用 户 的 虚拟 机 共享 物理 资源 ， 从 根本 上 杜绝 此 类 攻击 的 出 现 。 
"监控 策略 ， 在 VMM 中 增加 一 些 监控 模块 ， 记 录用 户 VM 对 菜 些 资源 的 操作 ， 以 做 后 续 分 析 。 
(4) VMM 可 提供 的 一 些 安全 服务 
当 VMM 自 身 的 安全 性 问题 解决 了 ， 除 了 提供 相关 虚拟 机 服务 ，VM M 也 可 以 提供 一 些 额外 的 服务 。 当 然 前 提 是 用 户 (租户 ) 需要 完全 信任 底层 的 VMM。VMM 可 以 提供 的 高 质量 的 服务 如 : 


- 保护 虚拟 机 内 部 OS 内 核 的 完整 性 。 一 个 虚拟 机 内 部 应 用 的 安全 基石 是 ODS 内 核 的 完整 性 。 基 于 “安全 是 分 层 的 ”原则 ， 如 果 OS 内 核 被 恶意 程序 攻破 ， 那 么 应 用 层 定 义 的 安全 策略 和 措施 都 会 被 打破 。 
一 般 来 讲 ， 恶 意 程序 或 者 病毒 控制 了 某 些 进程 ， 最 希望 的 是 在 OS 内 核 插入 一 些 恶 意 的 模块 和 代码 ， 比 如 Rootkit。 在 位 于 内 核 态 Rootkit 的 帮助 下 ， 位 于 用 户 态 恶 意 的 程序 可 以 绕 过 整个 虚拟 机 内 部 杀毒 或 者 安 
全 防护 服务 的 扫描 ， 使 得 整个 安全 机 制 都 被 破坏 。 由 于 VMM 的 特权 级 高 于 VM 内 部 的 OS 内 核 ， 则 VIMM 不 仅 可 以 随时 度量 OS 内 核 的 代码 完整 性 ， 并 且 可 以 防止 恶意 程序 对 某 些 重要 数据 的 修改 ,例如 OS 内 核 
的 IDT (Interrupt Description Table) 、Page Table。 这 样 的 方法 学 保护 了 内 核 ， 阻 止 了 恶意 程序 企图 随意 控制 OS 内 核 的 目的 。 


- 基于 VMM 的 杀毒 。 当 没有 虚拟 化 的 时 候 ， 操 作 系 统 直 接 运行 在 物理 硬件 上 。 为 了 保障 操作 系统 的 安全 性 ， 一 般 来 说 会 安装 一 些 病毒 扫描 软件 (re-active 策 略 ) 或 者 防火 墙 (pre-active 模 式 ) 等 ， 以 保 


证 整个 系统 的 安全 性 。 当 场景 转化 到 虚拟 化 平台 的 时 候 ， 这 样 的 策略 对 菜 些 病毒 依然 有 效 ， 但 是 还 不 够 完美 。 


因为 前 面 提 到 一 旦 虚拟 机 内 部 的 Os 内 核 被 植 入 了 Rootkit， 就 可 能 导致 上 层 的 安全 扫描 软件 失效 。 除 了 使 用 VMM 保 证 内 核 的 完整 性 ， 我 们 还 可 以 依赖 VM M 进 行 带 外 杀毒 (相对 于 虚拟 机 内 部 的 带 内 杀 
毒 ) 。 这 样 的 好 处 在 于 不 必 在 每 个 虚拟 机 内 部 都 布置 杀毒 软件 ， 只 要 在 每 个 VM 内 部 安装 一 个 轻 量 级 的 虚拟 机 插件 (Virtual Appliance) 用 于 收集 一 些 信 息 ， 当 然 也 可 以 不 收集 。 不 过 这 样 对 于 VMM 的 工作 
量 就 比较 大 ， 不 仅 需 要 监控 一 个 虚拟 机 内 部 所 有 进程 的 信息 ， 还 需要 进行 额外 的 语义 分 析 和 推测 。 


- 基于 VMM 的 进程 安全 沙 箱 。 我 们 也 可 以 利用 VMM 保 护 虚 拟 机 内 部 的 进程 ， 这 样 的 场景 适用 于 SDDC 中 提供 PaaS 服 务 的 场景 。 由 于 PaaS 平 台 下 操作 系统 接口 的 丰富 性 ， 不 可 能 每 次 依据 不 同 的 应 用 需求 
对 VM 中 的 OS 进行 裁剪 。 由 于 OS 的 庞大 ， 一 旦 下 层 的 OS 被 攻破 ， 相 应 的 应 用 进程 很 容易 被 窃取 数据 。 为 了 解决 这 样 的 问题 ， 我 们 引入 一 个 可 信 的 VMM (例如 Fudan 的 Chaos 和 VMware 的 Ovetshadow) ， 让 


VMM 为 进程 提供 安全 的 沙 箱 ， 去 度量 和 监控 OS 对 该 进程 的 内 核 服务 。 


3. 安 全 计算 实际 用 例 


由 于 在 整个 软件 计算 层 中 保障 VMM 的 安全 性 是 最 重要 的 ， 所 以 让 我 们 看 看 IT 产业 界 最 负 盛 名 的 VMware 公司 的 VM M 是 怎么 做 的 。VMware 的 ESXi 采 用 如 下 的 方法 学 来 保证 其 VM kernel 的 安全 性 。 
VMware ESXi 提 供 了 以 下 的 安全 功能 : 


- 内 存 保 护 加 固 (Memory Hardening) 。 对 ESXi kernel， 用 户 的 应 用 程序 和 可 执行 的 模块 (比如 说 驱动 和 程序 库 ) 在 执行 的 时 候 都 使 用 地 址 空间 随机 化 (Address Space Layout 
Randomization, ASLR) 。 对 于 以 前 所 采用 的 方法 学 一 一 把 一 些 地 址 针对 CPU 标记 成 不 可 不 执行 的 内 存 段 ， 地 址 空间 随机 化 让 恶意 程序 利用 漏洞 制造 内 存 泄 露 方 面 的 攻击 变 得 更 困难 。 


: 内 核 模 块 完整 性 检查 。 利 用 数字 签名 来 保障 被 VM kernel 加 载 的 模块 、 驱 动 程序 和 应 用 的 完整 性 。 模 块 签名 使 得 ESXi 能 够 识别 模块 、 驱 动 程序 或 应 用 程序 是 否 是 VMwate 认 证 的 。 


. 可 信 计 算 模 块 (TPM) 。 在 服务 器 上 配置 TPM， 那 么 这 个 模块 可 以 作为 根 信任 进行 安全 启动 的 认证 ， 以 及 密码 学 的 密 钥 的 存储 和 保护 。 当 ESXi 启 动 的 时 候 ，TPM 会 度量 VM ketnel 的 完整 性 ， 并 且 对 比 


放 入 TPM 的 PCR (平台 配置 寄存 器 ) 中 的 值 。 如 果 这 个 节点 需要 被 加 入 vCentet 进 行 管理 ，TPM 的 度量 会 传播 到 VMwate 所 提供 的 管理 平台 (vCenter) o 
此 外 VMware 还 表示 ， 可 以 使 用 TPM 进 行 第 三 方 解 决 方案 整合 部 署 一 些 策略 来 防止 对 ESXi 和 镜像 的 攻击 ， 诸 如 对 存储 镜像 的 破坏 、 污 染 ， 以 及 非 授 权 的 更 新 、 修 改 等。 当然 ESXi 的 安全 启动 认证 ， 还 支持 


动态 信任 根 的 度量 (Dynamic Root of Trust for Measurement, DRTM) 。 不 过 VM ware 暂 时 没有 支持 VM kernel 在 运行 过 程 中 动态 的 度量 。 


7.3.2 ”安全 的 存储 


在 SDDC 中 ， 可 能 存在 各 种 类 型 的 物理 存储 资源 ， 例 如 DAS (Directed Attached Storage) 、NAS (Network Attached Storage) 、SAN (Storage Area Network) 等 ; 亦 存 在 不 同 厂商 的 存储 ， 
例如 HP、IBM、EMC、HITACH 等 的 产品 。 软 件 定义 存储 的 目的 是 把 这 些 种 类 不 一 样 的 存储 用 软件 的 方式 统一 管理 起 来 ， 并 根据 不 同 用 户 的 需求 ， 提 供用 户 定 制 化 的 存储 服务 ， 例 如 对 象 存 储 、 文 件 存储 以 
及 块 存 储 服 务 。 下 面 我 们 主要 从 SDDC 用 户 的 角度 阐述 SDS (Software-Defined Storage) 中 一 些 典型 的 安全 问题 。 


1. 安 全 存储 的 需求 
数据 中 心 的 存储 要 达到 如 下 的 目标 : 数据 的 私密 性 (Confidentiality) 、 完 整 性 (Integrity) 、 可 用 性 (Availability) 和 可 审计 性 (Accountability) 。 
C 数据 私密 性 : 只 有 授权 的 用 户 才 能 访问 该 数据 ， 数 据 的 访问 都 需要 有 安全 措施 进行 认证 。 此 外 任何 数据 无 论 静 态 存储 在 存储 设备 上 ， 还 是 在 传输 过 程 中 都 需要 达到 数据 保护 的 目标 。 
数据 完整 性 : 为 了 防止 数据 被 非法 纂 改 ( 由 于 人 为 的 因素 或 者 一 些 外 在 的 原因 ， 如 存储 设备 出 现 故 障 ) ， 需 要 有 相关 的 完整 性 检查 和 恢复 措施 。 
数据 的 可 用 性 : 只 要 用 户 通过 正常 手段 进行 访问 ， 则 必须 保证 数据 能 够 有 效 地 被 获得 。 当 然 对 于 非法 访问 ， 要 进行 阻止 。 
- 数据 的 可 审计 性 : 用 户 对 数据 的 操作 需要 有 相关 的 记录 。 这 样 当 系统 出 现 问题 的 时 候 ， 才 能 进行 审查 。 


无 论 是 使 用 传统 数据 中 心 还 是 SDDC 的 用 户 ， 始 终 关心 的 是 数据 的 私密 性 、 完 整 性 以 及 可 用 性 。 数 据 的 可 用 性 一 般 通 过 数据 的 元 余 来 实现 。 最 经 典 的 是 采用 3 点 元 余 的 方法 ， 即 在 同一 个 数据 中 心中 ， 至 
少 提供 两 个 同步 的 版 本 ， 可 以 是 active-active (WGE) 模式 ， 也 可 以 是 active-passive 模 式 ， 另 外 一 个 数据 备份 放 在 远程 的 数据 中 心 。 当 然 保证 数据 的 可 用 性 ， 也 可 以 采用 纠 错 码 (Erasure Code) AYA 
法 。 这 里 存在 一 个 安全 相关 的 问题 ， 即 用 户 怎么 确认 数据 中 心 完 整 保存 了 用 户 的 数据 (有 些 数 据 ， 其 实用 户 备份 后 很 少 访问 ) ， 为 此 必须 提供 相关 的 概率 验证 方法 。 数 据 的 完整 性 ， 则 可 通过 一 些 Hash 算 法 
或 者 编 解码 (例如 raid) 进行 校 验 和 恢复 。 但 最 重要 的 其 实 是 数据 的 私密 性 ， 私 密 性 的 其 中 一 点 要 求 是 未 授权 的 用 户 不 能 访问 该 数据 ， 显 然 最 难 防范 的 就 是 数据 中 心 的 管理 员 。 


证 明 管 理 员 没 去 访问 用 户 的 数据 ， 是 一 件 有 难度 的 事情 。 为 了 阐述 的 方便 性 ， 我 们 明确 提出 用 户 对 于 数据 防范 的 安全 等 级 : 
* 等 级 0 用 户 的 数据 不 需要 任何 保护 。 用 户 把 数据 放 到 数据 中 心中 ， 作 为 一 个 公开 的 数据 ， 任何 用 户 都 能 访问 《包括 数据 中 心 的 管理 员 、 外 部 的 用 户 ) 。 


(FAL 用 户 的 数据 需要 保护 ， 用 户 信 任 数据 中 心 ， 但 是 数据 中 心 需 要 提供 安全 策略 ， 以 防止 其 他 非 授权 用 户 〈 不 包括 数据 中 心 管理 员 ) 访问 用 户 的 数据 。 


* 等 级 2 ”用户 的 数据 需要 保护 ， 但 是 用 户 不 完全 信任 数据 中 心 。 布 望 数据 中 心 不 仅 提供 安全 策略 ， 以 防止 其 他 的 非 授 权 用 户 ， 而 且 即 使 数据 中 心 的 管理 员 也 不 能 访问 用 户 的 数据 。 


对 于 等 级 2 的 要 求 ， 很 多 用 户 认 为 既然 数据 中 心 达 不 到 数据 安全 管理 ， 就 应 该 把 数据 的 隐私 控制 权限 放 在 自己 手中 ， 即 用 户 直 接 把 通过 密码 学 技术 (主要 利用 加 解密 技术 ) 处 理 过 的 数据 放 到 数据 中 心 ， 
那么 数据 中 心 看 到 的 “明文 ”数据 其 实 已 经 是 “ 密 文 ”数据 。 这 样 即使 非 授权 用 户 拿 到 该 数据 ， 也 无 法 破解 ， 因 为 进行 数据 转化 的 密 钥 始 终 控制 在 用 户 手中 ， 但 是 所 谓 的 数据 泄露 ， 已 经 造成 了 攻击 。 另 外 
如 果 用 户 把 加 密 后 的 数据 放 在 数据 中 心中 ， 那 么 数据 中 心 只 是 作为 一 个 远 端的 存储 介质 ， 不 能 提供 更 好 的 存储 服务 ， 例 如 重复 数据 删除 ， 而 且 数 据 中 心 也 不 能 在 数据 上 进行 任何 计算 ， 不 能 提供 额外 的 服 
务 。 那 么 用 户 把 加 密 后 的 数据 放 到 数据 中 心中 ， 就 失去 了 意义 。 当 然 用 户 利 用 数据 中 心 的 计算 资源 ， 依 然 可 以 对 数据 进行 处 理 ， 因 为 用 户 知道 数据 的 加 解密 方法 ， 但 是 在 计算 过 程 中 ， 数 据 一 定 是 明文 的 。 
意思 就 是 说 ， 如 果 用 户 利用 数据 中 心 的 计算 资源 ， 对 存放 在 数据 中 心 的 数据 进行 计算 ， 一 旦 数据 中 心 不 提供 安全 的 计算 ， 那 么 用 户 的 密 文 数据 也 有 泄露 的 风险 。 所 以 存储 的 安全 性 、 计 算 的 安全 性 以 及 网 络 
的 安全 性 、 是 密 不 可 分 的 ， 我 们 不 能 孤立 地 看 待 存储 的 安全 问题 。 


2. 传 统 数据 中 心 的 存储 安全 技术 


在 讨论 SDDC 安 全 存储 技术 前 ， 我 们 首先 回顾 和 讨论 一 下 传统 数据 中 心 的 存储 安全 技术 。 由 于 传统 数据 中 心 的 存储 大 多 数 由 NAS 和 和 SAN 组成。 存储 网 络 中 的 数据 访问 分 为 三 种 : 用 户 的 应 用 程序 访问 、 
管理 访问 以 及 备份 恢复 和 归档 等 。 


控制 用 户 的 应 用 程序 对 存储 的 访问 ， 一 般 通 过 以 下 的 手段 : 


- 用 户主 机 认证 机 制 。 不 同 的 存储 网 络 中 (iSCSI、Fibre Channel, IP-SAN) ， 主 机 的 认证 机 制 有 所 区 别 ， 例 如 有 CHAP (Challenge-Handshake Authentication Protocol) 、FC-SP (Fibre Channel Security 
Protocol) 、IPSec 等 。 在 SAN 环 境 中 ， 主 机 认证 后 ， 将 会 采取 以 下 措施 来 限制 主机 的 访问 : 中 还 辑 单 元 屏蔽 (LUN Masking) ， 决 定 主机 访问 存储 设备 的 权限 。 比 如 有 些 设备 可 以 把 主机 的 WWN (World Wide 
Name) 映射 到 存储 交换 机 特定 的 FC 端 口上 对 数据 进行 访问 控制 。@ 四 分 区 (Zoning) 是 交换 机 上 的 机 制 ， 把 存储 网 络 划 分 为 不 同 的 子 网 ， 使 得 数据 的 传输 被 隔离 。 分 区 有 硬 分 区 和 软 分 区 。 


“ 用 户 授 权 管理 控制 。 不 同 的 设备 所 采用 的 用 户 认证 手段 也 是 不 同 的 。 比 如 说 采用 访问 控制 表 (ACL) 进行 管理 ， 不 同 的 用 户 对 应 不 同 的 权限 。 


管理 访问 主要 是 管理 员 的 工作 。 所 谓 的 安全 措施 包括 存储 网 络 基础 设施 的 完全 性 和 存储 网 络 加 密 。 


: 存储 网 络 基 础 设施 的 安全 性 : 中 加 入 存储 网 络 的 存储 设备 必须 经 过 认证 。 如 果 没 有 认证 ， 用 户 的 数据 一 旦 被 存储 到 该 设备 上 ， 内 容 可 能 丢失 。@ 基 于 角色 的 安全 访问 (Role Based Access 
Control, RBAC) ， 对 职责 进行 划分 。 比 如 赋予 账号 和 权限 的 人 ， 原 则 上 不 能 使 用 自己 赋予 的 账号 。(3) 存 储 网 络 和 用 户 的 安全 网 络 进行 分 离 。 


+ 存储 的 加 密 : 数据 在 存储 设备 上 以 密 文 存放 ， 且 使 用 一 些 Hash 和 工法 进行 完整 性 校 验 ; 数据 在 存储 过 程 ， 即 在 存储 网 络 中 传输 的 时 候 进 行 加 密 。 


“ 控制 存储 设备 的 管理 权限 : 目的 在 于 防止 攻击 者 假冒 管理 员 或 者 提升 权限 获取 对 存储 设备 的 控制 权 。 为 了 同时 达到 管理 和 审计 的 目的 ， 存 储 设 备 可 和 第 三 方 认 证 结合 在 一 起 ， 比 如 使 用 
LDAP (lightweight Directory Access Protocol) 或 者 AD (Active Directory) 。 


. 备份 、 复 制 和 存档 的 安全 : BR (DR) 设计 是 非常 有 必要 的 ， 但 是 必须 考虑 可 能 存在 的 攻击 : CDDR 合 法 身份 的 认证 ， 以 免 备 份 会 传输 到 未 经 认证 的 站 点 ， 另 外 认证 是 为 了 防止 一 些 可 能 存在 的 对 存 
储 设 备 的 DoS 攻 击 (Denial of Service) ; @ 备 份 过 程 中 ， 数 据 要 进行 相关 的 签名 (可 采用 纠 错 码 的 方法 ) ， 以 防止 数据 在 传输 过 程 中 被 自 改 ; @@) 数 据 在 网 络 传输 过 程 中 必须 采用 独立 和 安全 的 网 络 ， 或 者 进行 
AmA, HLR 


3.SDDC 安 全 存储 的 挑战 和 相关 技术 


传统 数据 中 心 的 安全 存储 技术 在 SDDC 中 依然 有 效 。 原 因 在 于 SDS 虽 然 统一 管理 了 数据 中 心 的 所 有 存储 ， 并 且 把 控制 和 数据 传输 进行 分 离 ， 构 成 了 control plane (控制 平台 ) 和 data plane (数据 平 
台 ) ， 呈 现 给 用 户 的 存储 资源 都 是 逻辑 或 者 虚拟 存储 资源 ， 用 户 在 分 配 的 逻辑 或 虚拟 的 存储 资源 和 网 络 上 进行 存储 资源 的 操作 ， 但 是 逻辑 的 存储 资源 一 定 会 被 映射 到 真实 的 物理 资源 上 ， 根据“ 安全 是 分 层 
的 ”原则 ， 物 理 存储 资源 的 访问 控制 、 安 全 管理 以 及 备份 等 的 安全 必 不 可 少 。 不 过 在 此 基础 上 ，SDS 依 然 存在 以 下 安全 问题 : 


- 统一 的 存储 设备 可 信 认 证 。 在 软件 定义 计算 中 ， 我 们 提 到 可 以 使 用 TCG 提 出 的 相关 理念 对 服务 器 进行 相关 的 度量 和 了 验 证， 以 保证 服务 在 启动 甚至 运行 过 程 中 ， 都 是 可 信任 的 。 其 实在 存储 中 也 存在 相 
关 的 问题 。 一 个 存储 设备 其 实 和 服务 器 一 样 ， 也 安装 了 相关 的 操作 系统 和 一 些 服务 软件 ， 才 能 完成 相应 的 存储 服务 。 而 存储 设备 是 否 可 人 和信， 直接 关系 到 用 户 数据 的 安全 性 。 试 想 一 下 ， 如 果 用 户 的 数据 存放 
在 未 经 认证 的 存储 设备 上 ， 对 用 户 的 数据 是 一 个 很 大 的 威胁 。 为 此 ， 和 服务 器 相 类 似 ， 对 于 存储 设备 也 可 参照 TCG 的 思想 ， 进 行 相关 的 认证 。 此 外 ， 由 于 存储 设备 的 多 样 性 ， 我 们 需要 设计 一 个 统一 的 接 
只 ， 对 各 种 各 样 的 存储 设备 进行 相关 安全 认证 。 而 对 于 具体 的 每 一 个 存储 设备 来 讲 ， 需 要 实现 统一 接口 所 设 定 的 具体 认证 协议 或 者 步骤 。 


- 统一 的 安全 存储 策略 。 由 于 物理 存储 的 多 样 性 ， 不 同 的 物理 存储 设备 都 有 自己 的 安全 策略 和 配置 。 如 何 抽象 出 一 个 统一 的 安全 管理 策略 很 具有 挑战 性 。 问 题 是 这 样 的 ， 假 设 存在 N 个 存储 
($1, 85, 83, ^c, SN) ， 每 个 存储 Si (1<i<N) 都 有 一 套 安 全 相关 的 策略 集合 ， 表 示 成 P (S) 。 那 么 我 们 制定 的 总 策略 是 所 有 策略 的 合集 (UP (S) ) 还 是 交集 (NP (S) ) 呢 ? 如 果 设 置 成 所 有 安全 
策略 的 交集 ， 则 某 些 存储 独 有 的 安全 策略 被 屏蔽 ， 该 存储 独 有 的 特性 无 法 发 挥 。 所 以 策略 应 该 设置 成 所 有 集合 的 并 集 ， 然 后 对 底层 各 类 相关 的 存储 进行 分 类 ， 根 据 用 户 的 安全 需求 ， 选 取 合 适 的 存储 ， 那 么 
各 个 存储 独 有 的 安全 策略 才能 够 进行 发 挥 。 当 然 设计 这 样 的 安全 系统 ， 整 合 不 同 的 存储 时 还 是 有 一 定 难度 的 。 在 抽象 的 安全 策略 和 具体 的 安全 策略 之 间 ， 需 要 一 个 安全 转化 引擎 ， 整 个 系统 才能 有 效 地 工作 
起 来 。 


- 不 同 存 储 间 数据 迁移 的 安全 问题 。 在 SDDC 中 ， 为 了 保障 数据 可 靠 性 和 可 用 性 ， 不 可 避免 地 存在 数据 的 迁移 。 当 数据 迁移 发 生 后 ， 由 于 异 构 (Heterogeneous) 存储 在 安全 管理 方面 的 区 别 ， 一 些 安 全 管 
理 元 数据 (Metadata) 不 能 直接 进行 拷贝 。 这 就 需要 有 相应 的 转化 机 制 ， 以 保证 数据 在 转化 前 的 安全 机 制 和 转化 后 的 安全 机 制 依然 是 等 价 的 。 当 然 在 同 构 (Homogeneous) 的 存储 中 进行 数据 的 迁移 不 存在 这 
类 问题 ， 但 是 不 可 否认 的 是 当 SDDC 中 存储 资源 紧张 的 时 候 ， 异 构 存 储 设备 之 间 的 数据 迁移 事件 依然 有 可 能 发 生 ， 为 此 必须 考虑 这 样 的 用 例 。 数 据 管 理 的 元 数据 可 能 涉及 密 钥 的 变化 ， 当 密 钥 发 生 相 应 的 变化 
时 ， 可 能 有 些 相 关 的 用 户 数 据 也 会 从 一 种 形式 的 密 文 转化 成 另外 一 种 。 


统一 的 安全 监控 和 分 析 平 台 。 由 于 存储 器 的 多 样 性 ， 每 类 存储 都 有 独 有 的 机 制 存 取 用 户 操作 的 日 志 等 一 些 数据 ， 用 于 规定 的 审计 和 安全 监测 。 为 此 需要 建立 一 个 统一 的 安全 日 志 收 集 机 制 ， 提 供 统一 
的 接口 和 相关 的 代理 (Agent) 接口 ， 去 收集 相关 的 日 志 ， 并 且 放 入 统一 的 数据 分 析 平 台 ， 进 行 有 效 的 后 续 安 全 分 析 ， 以 监控 用 户 逻 辑 存 储 资 源 的 使 用 情况 。 


4. 安 全 存储 实例 分 析 


EMC 的 ScalelO 是 一 款 典 型 的 软件 定义 存储 (SDS) ， 其 利用 本 地 应 用 的 存储 搭建 一 个 基于 服务 器 的 虚拟 存储 网 络 (Virtual SAN) 。 在 这 样 的 架构 下 : @ 一 个 服务 器 可 以 同时 作为 ScalelO 的 客户 端 
(Scale IO Client) 和 服务 器 端 (Scale IO Server) ; @ 传 统 的 应 用 可 以 继续 运行 在 服务 器 上 ， 和 存储 共存 ;，@@ 应 用 和 存储 共用 网 络 。ScalelO 采 用 如 下 手段 保障 数据 的 可 用 性 和 隐私 性 。 


- 可 用 性 : ScaleIO 采 用 数据 分 片 的 模式 ， 把 数据 均匀 地 分 布 在 不 同 的 作为 ScaleIO Servet 的 机 器 上 。 此 外 每 一 个 分 片 都 有 一 个 备份 ， 称 为 two-copy meshed mittoting， 随 机 存储 在 集群 中 。 如 果 一 个 服务 器 
出 错 ，ScaleIO 会 自动 执行 数据 的 重新 构建 。 另 外 对 于 新 数据 节点 的 加 入 和 老 数 据 节 点 的 删除 ，ScaleIO 会 进行 相关 的 动态 平衡 、 数 据 的 迁移 和 重 构 。 


+ 私密 性 : ScaleIO 把 存储 数据 的 SDS 划 分 成 很 多 域 ， 一 个 SDS 只 能 划分 到 一 个 域 中 ， 而 不 能 跨 域 。 每 一 个 域 都 可 以 定义 相关 的 保护 策略 。 域 的 存在 使 得 整个 ScaleIO 可 以 进行 以 下 工作 : 中 实现 更 好 的 容 
某 ， 可 以 有 效 处 理 不 同 域 的 并 发 错误 。@O 进 行 相关 的 性 能 隔离 。 域 的 存在 ， 可 以 更 好 地 进行 网 络 带宽 管理 和 分 配 ， 屏 蔽 来 自 同 时 运行 在 该 网 络 的 应 用 占用 带宽 所 造成 的 对 存储 服务 的 攻击 ; 另外 也 可 以 防止 
一 些 隐 藏 通道 攻击 ; @ 做 到 对 数据 存储 分 布 位 置 的 控制 ， 实 现 多 租户 之 间 的 隔离 ， 给 租户 提供 更 好 的 隐私 性 保护 。 


当然 ScalelO 的 假设 前 提 是 运行 在 同一 个 服务 器 的 应 用 ，ScalelO Client 和 ScalelO Server 都 是 可 信任 的 ， 但 是 怎样 保证 可 信任 ，ScalelO 和 暂时 没有 明确 提出 相关 的 解决 方案 。 
7.3.3 ”安全 的 网 络 


我 们 讨论 了 软件 定义 计算 和 存储 中 引入 的 新 的 安全 问题 和 挑战 ， 同 样 在 软件 定义 网 络 中 也 存在 很 多 安全 问题 。 在 SDDC 中 ， 可 能 存在 各 种 类 型 的 网 络 设备 。 按 照 是 否 支 持 软 件 定义 的 网 络 协 议 (例如 
OpenFlow) ， 可 分 为 “传统 ” (Legacy) 和 “新 型 ”的 网 络 设备 。 这 些 网 络 设备 在 长 期 时 间 内 ， 必 然 共 存 。 下 面 我 们 分 别 从 SDDC 管 理 的 角度 和 SDDC 用 户 的 角度 前 述 SDN 中 一 些 典型 的 安全 问题 。 


1. 网 络 安全 的 挑战 


如 图 7-8 所 示 ， 数 据 中 心 的 网 络 (主要 指 以 太 网 ) 主要 分 成 以 下 的 层次 : 网 络 服务 提供 商 (Internet Service Provider) 、 网 络 基础 设施 (Network Infrastructure) 、 网 络 资源 管理 平台 以 及 提供 给 用 


ZN-H 


户 的 网 络 。 无 论 是 传统 数据 中 心 还 是 SDDC， 都 要 依赖 外 部 的 网 络 提供 商 ， 数 据 中 心 的 任务 主要 是 在 数据 中 心 内 部 提供 相应 的 网 络 管理 平台 ， 对 物理 的 网 络 资源 进行 管理 ， 以 便于 提供 更 好 的 服务 给 用 户 。 
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图 7-8 ”传统 数据 中 心 网 络 和 SDDC 网 络 的 演进 


传统 的 数据 中 心 采用 较 简单 的 网 络 管理 平台 ， 这 样 的 方法 学 可 能 引入 一 些 安全 或 者 可 扩展 性 的 问题 。 传 统 的 数据 中 心 给 用 户 提供 的 逻辑 网 络 等 同 于 物理 网 络 ， 如 在 亚马逊 中 ， 给 用 户 分 配 的 是 数据 中 心 
的 静态 内 部 网 络 。 这 样 的 方法 并 没有 做 到 用 户 的 逻辑 网 络 和 数据 中 心 网 络 的 隔离 性 ， 恶 意 的 用 户 可 以 通过 一 些 暴 力 的 方法 ， 去 侦 测 整 个 数据 中 心 的 网 络 拓扑 以 及 IP 地 址 分 配 情况 ， 以 推测 整个 数据 中 心 可 能 
存在 多 少 台 物 理 机 ， 这 样 显然 带 来 了 一 些 安全 的 隐患 。 此 外 传统 的 数据 中 心 ， 为 了 保障 不 同 用 户 网 络 的 隔离 性 ， 一 般 采 用 VLAN 的 方法 ，VLAN 方 法 存在 着 比较 大 的 局 限 性 。 根 据 其 协议 ， 一 个 数据 中 心 最 多 
能 提供 4094 (字段 中 只 有 12 个 比特 ， 可 产生 212 个 网 络 ， 去 掉 两 个 特殊 网 络 ) 个 隔离 的 VLAN 网 络 。 一 旦 用 户 对 于 安全 网 络 的 请 求 大 于 这 个 数值 ， 数 据 中 心 将 无 法 处 理 。 


基于 以 上 种 种 缺陷 ，SDDC 引 入 了 SDN (Software-Defined Notworking) 和 NV (Network Virtualization) 技术 。 这 样 用 户 的 网 络 将 和 SDDC 基 础 网 络 设施 构成 的 网 络 在 逻辑 上 完全 分 离 。SDDC 中 
网 络 基 础 设施 所 使 用 的 网 络 物理 资源 主要 由 网 络 服务 提供 商 供给 ， 另 外 也 可 使 用 一 些 物理 上 的 局 域 网 技术 ; 而 用 户 的 网 络 是 由 网 络 管理 平台 所 定义 的 逻辑 或 者 虚拟 网 络 ， 昌 然 利用 了 底层 物理 基础 设施 的 网 
络 资源 (比如 占用 了 带宽 、 使 用 了 底层 的 协议 ) ， 但 是 逻辑 上 来 讲 是 完全 独立 的 。 


在 物理 网 络 中 ， 网 络 安 全 策略 利用 物理 的 路 由 器 、 交 换 机 以 及 配置 其 上 的 防火 墙 控制 网 络 包 的 流向 。 访 问 的 控制 策略 较 简 单 ， 以 静态 为 主 。 但 是 软件 定义 下 产生 的 逻辑 网 络 ， 对 逻辑 网 络 进行 安全 策略 
的 实施 融 来 很 大 的 挑战 ， 传 统 的 人 工 配 置 、 静 态 保护 的 方法 不 适用 于 软件 定义 的 网 络 环境 。 软 件 定 义 网 络 的 安全 问题 主要 出 现在 网 络 安全 管理 平台 这 些 “ 实 体 ” 上 (在 实际 的 数据 中 心 可 能 是 分 布 式 的 ) 。 
由 于 网 络 的 管理 平台 主要 分 为 控制 平台 用 于 配置 和 管理 用 户 的 逻辑 网 络 ) 和 数据 平台 (负责 用 户 逻 辑 网 络 的 数据 封装 和 传输 ) ， 因 此 主要 的 安全 问题 可 以 归结 为 以 下 两 点 : 


1) 保障 管理 软件 的 安全 性 。 控 制 平台 管理 的 软件 路 由 器 和 交换 器 的 功能 ， 最 终 都 建立 在 SDDC 的 物理 基础 架构 上 。 因 此 可 能 存在 一 些 安全 问题 : 管理 软件 存在 漏洞 或 者 逻辑 错误 ; 网 络 服务 商 所 提供 的 
SLA 的 安全 问题 ; SDDC 中 的 管理 员 误 操作 或 者 恶意 操作 ， 所 引起 的 问题 。 为 此 必须 : 


. 记录 自身 管理 软件 的 所 有 操作 ， 产 生 安 全 日 志 【〔( 必 须 保障 日 志 的 安全 性 ) 。 

: 防止 来 自 SDDC 物 理 网 络 的 攻击 ， 为 此 需要 对 物理 网 络 资源 的 使 用 情况 以 及 变化 进行 监控 。 

需要 对 控制 平台 进行 安全 访问 控制 。 

. 集中 控制 的 安全 策略 。 由 于 网 络 管理 平台 需要 制定 和 管理 所 有 用 户 网 络 的 安全 性 ， 不 断 地 通过 控制 平台 和 管理 各 个 用 户 的 网 络 边缘 交换 机 (Network Edge Switch) 进行 交互 ， 为 此 控制 平台 会 成 为 整 
个 网 络 吞吐 量 的 性 能 瓶颈 ， 以 致 成 为 攻击 者 的 新 目标 ,一旦 被 破坏 将 影响 到 整个 网 络 的 安全 。 为 此 控制 器 必须 握 弃 集中 制 ， 采 用 分 布 式 的 机 制 。 

2) 保障 用 户 网 络 的 安全 性 。 引 入 了 SDN 或 者 NV 技术 以 后 ， 用 户 的 网 络 可 以 随时 动态 创建 和 销毁 。 这 也 引入 了 以 下 新 的 问题 : 


. 用 户 虚 拟 网 络 之 间 的 隔离 。 和 软件 定义 的 计算 和 存储 相似 ， 不 同 的 租户 之 间 虽 然 由 SDDC 中 的 网 络 管理 平台 提供 了 虚拟 网 络 ， 实 现 了 逮 辑 上 的 隔离 ， 但 在 物理 上 依然 共享 资源 。 这 种 物理 上 的 共享 性 会 
带 来 安全 隐患 。 和 基于 CPU 的 Side Channel 和 Covett Channel 攻 击 相似 ， 某 租户 利用 网 络 带宽 隔离 的 漏洞 ， 可 探测 和 其 共享 物理 资源 的 那个 租户 的 一 些 敏感 数据 或 者 信息 ， 甚 至 可 以 影响 该 租户 的 带宽 ， 进 行 
DoS 攻 击 。 例 如 ，Chowdhuty 提 出 在 共享 的 物理 网 络 资源 上 ， 存 在 相关 的 服务 攻击 。 为 此 在 物理 共享 的 虚拟 化 网 络 中 保证 用 户 之 间 的 性 能 隔离 以 及 信息 隔离 是 一 个 挑战 。 


. 安全 策略 的 一 致 性 。 在 虚拟 网 络 中 ， 安 全 策略 应 该 根据 所 生成 的 网 络 特性 可 定制 ， 并 且 可 由 控制 平台 进行 统一 管理 。 一 般 来 说 SDDC 的 管理 员 会 根据 用 户 的 需求 ， 在 网 络 的 边缘 配置 和 执行 安全 相关 的 
策略 ， 主 要 是 指 对 数据 包 的 转发 (包括 封装 和 解 封装 ) 、 软 件 路 由 器 、 交 换 机 和 防火 墙 的 管理 。 由 于 在 用 户 的 虚拟 网 络 中 ， 可 以 随时 进行 一 些 虚 拟 设 备 的 加 入 和 退出 ， 例 如 创建 新 的 虚拟 机 、 和 销毁 老 的 虚拟 
机 ， 从 而 导致 网 络 边缘 配置 的 频繁 变化 ， 为 此 各 个 网 络 边缘 的 软件 之 间 保 证 安全 策略 的 一 致 性 和 同步 性 是 一 个 挑战 。 


举 个 例子 ， 如 图 7-9 所 示 。 假 设 有 四 台 主 机 (其 IP 地 址 分 别 是 10.32.105.49~10.32.105.52) 、 一 个 SDN 软 件 交 换 机 、 一 个 SDN 控 制 器 ， 其 中 SDDC 中 虚拟 网 的 防火 墙 阻 止 从 主机 10.32.105.51 到 主机 
10.32.105.49 的 端口 为 8001 的 网 络 包 。 假 设 某 个 应 用 恶意 改变 了 SDN 控 制 器 的 转发 表 ， 一 旦 遇 到 网 络 包 中 出 现 10.32.105.51->10.32.105.49: 8001 (前 者 代表 源 地 址 ， 后 者 代表 目标 地 址 和 端口 ) ， 则 把 网 
络 包 的 内 容 直 接 修 正 为 10.32.105.50->10.32.105.49: 8001， 另 外 增加 一 条 规则 10.32.105.50->10.32.105.49: 8001; Forward。 这 样 SDN 交 换 机 就 把 10.32.105.51 发 送 给 10.32.105.49 的 网 络 包 伪装 成 从 
10.32.105.50 发 送 给 10.32.105.49 的 网 络 包 。 可 以 看 到 经 过 修改 后 的 转发 表 ， 绕 过 了 防火 墙 机 制 ， 达 到 攻击 者 从 主机 10.32.105.51 向 10.32.105.49 通 过 8001 端 口传 递 数据 的 目的 。 可 见 软 件 定 义 网 络 出 现 后 ， 
需 考虑 动态 转发 配置 一 致 性 的 问题 ， 因 此 需要 对 支持 虚拟 或 者 逻辑 网 络 的 交换 机 、 路 由 以 及 防火 墙 等 进行 全 局 的 安全 策略 检测 ， 使 得 安全 策略 之 间 没 有 冲突 。 


Block SDN 
10.32.105.51-> 控制 需 


10.32.105.49 主机 
(10.32.105. 50) 


SDN 主机 


Swich | 信 |110032105.51) 


主机 


(10.32.103. 49) 


除了 原 有 规则 以 外 ， 增 加 如 下 


规则 : 主机 
物理 链 路 C12 修改 网 络 包 (10.32.105. 52) 

10.32.105.51 -> 10.32.105.49: 

8001; 


Ib cies = LD os x 


增加 网 络 包 转发 
EU ie edie 
10 32.005, 439260017 forward 
图 7-9 ”安全 策略 一 致 性 的 问题 
- 用 户 网 络 的 数据 隐私 性 。SDDC 中 的 恶意 管理 员 可 控制 管理 用 户 庶 拟 网 络 的 路 由 器 ， 在 底层 截获 用 户 网 络 中 的 数据 ， 因 为 用 户 的 虚拟 网 络 运行 在 SDDC 的 物理 网 络 上 ， 为 此 必须 采用 一 系列 的 措施 避免 
有 恶意 的 管理 员 或 者 黑客 在 SDDC 的 物理 网 络 上 进行 监听 。 
2. 安 全 网 络 相 关 技术 和 方法 学 
为 了 保障 SDDC 网 络 的 安全 性 ， 需 要 提供 如 下 的 安全 技术 : 
(1) 监控 SDDC 的 物理 网 络 资源 
为 了 杜绝 来 自 物理 网 络 的 攻击 ，SDDC 不 仅 需要 监控 网 络 服务 提供 商 提 供 的 外 部 网 络 ， 还 需要 监控 SDDC 内 部 的 物理 基础 (例如 路 由 器 、 交 换 机 ) 。 


1) 监控 和 认证 网 络 服务 提供 商 。SDDC 需 要 提供 一 系列 的 方法 学 来 监控 所 使 用 的 ISP， 比 如 检测 1SP 的 服务 水 平 协 议 (Service Level Agreement, SLA) ， 提 供 的 带宽 、 延 迟 是 否 符合 预期 的 值 。 
因为 SDDC 中 用 户 的 逻辑 网 络 会 使 用 到 第 三 方 网 络 服务 提供 商 的 协议 和 服务 (如 跨 数据 中 心 的 用 户 逻 辑 网 络 ) 。 亚 马 逊 提供 了 相应 的 Bad 1SP 列 表 ， 列 表 中 的 ISP 在 P2P (Peer to Peer) 协议 上 ， 引 入 了 隐 式 
的 流量 控制 ， 这 些 控制 将 有 可 能 最 终 影响 上 层 用户 逻 辑 网 络 的 稳定 性 和 安全 性 。 


2) 监控 SDDC 中 物理 网 络 设备 的 使 用 。 网 络 控 制 平 台 利用 了 真实 的 物理 网 络 ， 使 用 SDN 或 者 NV 技术 在 物理 网 络 上 创建 逻辑 上 独立 的 网 络 ， 但 这 些 网 络 最 终 建 立 在 物理 网 络 上 。 为 此 我 们 必须 提供 相关 
的 措施 来 监控 一 些 网 络 设施 (诸如 路 由 器 、 交 换 机 ) 的 流量 变化 、 操 作 日 志 ， 实 时 抓 取 分 析 警 告 和 错误 日 


3) 限制 SDDC 管 理 员 的 权限 。SDDC 管 理 员 的 权限 必须 细 化 ， 使 得 管理 员 错 误 操 作 或 者 恶意 操作 带 来 的 损失 降低 到 最 小 。 
(2) 监控 SDDC 的 虚拟 网 络 资 源 
为 了 防止 来 自 虚拟 网 络 的 攻击 ， 软 件 定义 网 络 管理 平台 需要 提供 以 下 措施 : 
1) 控制 平台 的 安全 性 关系 到 用 户 的 虚拟 网 络 安全 ， 为 此 以 下 功能 是 必需 的 : 
` 控制 平台 必须 采用 分 布 式 设计 ， 避 免 单 点 故障 。 
“ 对 于 控制 平台 的 访问 ， 必 须 采 用 严格 的 控制 。 所 有 通过 控制 平台 对 NVE、 软 件 交 换 机 和 路 由 器 的 操作 (诸如 新 建 、 修 改 、 更 新 ) 必须 进行 记录 。 
2) 数据 平台 的 设计 关系 到 用 户 虚拟 网 络 的 质量 和 安全 性 ， 为 此 考虑 以 下 情况 : 
数据 平台 所 有 的 NVE 需 要 部 署 在 可 信 的 机 器 上 ， 避 免 被 除 控制 平台 以 外 的 其 他 软件 进行 恶意 自 改 。 


| 数据 平台 必须 提供 相应 的 QoS 机 制 ， 并 付 诸 在 NVE、 虚 拟 交换 机 、 路 由 器 中 进行 实施 


3. 安 全 网 络 实例 


(1) 网 络 虚 拟 化 中 的 安全 问题 


前 面 我 们 提 到 了 软件 定义 网 络 中 的 各 个 问题 ， 这 里 就 具体 谈 谈 网 络 虚 拟 化 中 的 安全 问题 ， 重 点 放 在 overlay network virtualization 的 安全 问题 上 。 如 图 7-10 所 示 ， 假 设 我 们 在 一 组 主机 中 使 用 overlay 
virtualization 创 建 了 两 个 虚拟 网 络 ， 由 NV 控制 平台 管理 ， 那 么 将 存在 以 下 安全 问题 : 


- 来 自 物理 网 络 的 攻击 。NVE 所 在 的 物理 网 络 被 恶意 注入 无 关 的 流向 ， 导 致 虚拟 网 络 通信 质量 下 降 ， 导 致 DoS 攻 击 ; NVE 在 物理 网 络 上 的 通信 被 监听 ， 导 致 用 户 内 容 泄露 物理 交换 机 和 路 由 器 的 行为 
台 被 恶意 控制 ， 导 致 一 些 错误 的 信息 发 送 或 者 获取 


NVE 位 于 的 主机 不 可 人 信任， 导致 维 护 的 映射 表 〈 主 要 维护 各 个 虚拟 网 络 的 一 些 信 息 ) 被 修改 ; NV 控 制 平 


遭受 中 间 人 (Man-in-the-Middle) 攻击 ， 时 致 虚拟 机 状态 被 修改 ， 导 致 敏感 信息 


ARK; 
: NVE 和 NV 控制 平台 的 安全 性 问题 
虚拟 机 动态 迁移 时 ， 被 注入 或 者 修改 ， 该 信息 


;泄露 。 


虚拟 机 迁移 带 来 的 安全 问题 。 


共享 网 络 资 源 带 来 的 问题 。 一 个 主机 上 的 NVE 服 务 不 同 的 虚拟 网 络 ， 产 生 可 能 存在 的 隐 式 通 


NV control 


Plane 


物理 网 络 链接 
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图 7-10 overlay network virtualization F $4 4t 4 F) xt 


对 于 以 上 提 到 的 安全 问题 ， 采 用 以 下 解决 方案 : 


: 针对 物理 网 络 上 的 攻击 。 对 物理 网 络 进 行 监控 ; 在 物理 网 络 上 进 


行 流量 区 分 ， 使 得 虚拟 网 络 有 带宽 的 保障 ; 对 于 高 安全 
“ 针对 NVE 和 NV 控制 平台 的 安全 问题 。NVE 必 须 部 署 在 可 信 的 主机 上 ; 管理 平台 的 访问 做 控制 使 用 前 面 所 提 到 的 方法 学 
- 针对 虚拟 机 动态 迁移 带 来 的 问题 。 虚 拟 机 迁移 的 整个 过 程 ， 进 行 相关 的 Hash 校 验 或 者 加 帘 

€ ub. 


共享 资源 带 来 的 问题 。 实 现 各 个 层面 的 QoS 进行 保障 。 虽 然 难以 很 快 实现 ， 但 可 以 慢 4 


(2) VMware NSX 的 安全 设计 策略 
VMware NSX 是 一 个 非常 典型 的 网 络 虚拟 化 平台 ， 可 实现 采用 不 同 信道 协议 (诸如 VXLAN、GRE、STT) 封装 的 虚拟 网 络 。 为 了 阐述 NSX 中 的 安全 性 ， 让 我 们 简要 回顾 一 下 VMWARE NSX 中 的 一 些 组 
件 : 
- 管理 平台 (NSX manager) o 
- 控制 平台 (NSX controller) 。 
- 数据 平台 (NSX vSwitch) ， 主 要 由 VDS/OVS 与 VXLAN、Distributed Logical Routet、Fitewall 组 成 
让 我 们 从 安全 的 角度 看 NSX 是 不 是 解决 了 前 面 我 们 提 到 的 相关 安全 问题 : 
“ 为 了 避免 来 自 物理 网 络 上 的 攻击 ，VMware NSX 对 物理 网 络 进行 了 相关 的 划分 ， 使 用 IEEE 的 802.1Q 协 议 把 整个 网 络 划 分 若干 个 VLAN 诸 如 : 管理 网 络 供 NSX managet 管 理 使 用 ; VMotion 相关 的 网 络 供 虚 
拟 机 动态 迁移 使 用 ; VXLAN 为 虚拟 机 动态 网 络 专用 ; Storage 相 关 的 网 络 为 存储 专用 网 络 。 
此 外 对 于 各 个 网 络 之 间 的 带 完 ，NSX 还 进行 相关 的 QoS 控 制 。 比 如 在 物理 交换 机 的 L2 网 络 ， 提 供 L2QoS (Class of Service)， 在 L3 提 供 L3QoS (DSCP Marking) 。 
针对 VETP (VXLAN Tunnel Endpoint， 即 Overlay 网 络 中 的 NVE) 的 安全 性 ，NVE 部 署 的 主机 都 是 被 认证 过 的 ; 针对 控制 器 的 安全 性 ，NSX 提 供 了 controller clustet 的 机 制 ， 避 免 单 点 故障 ; 针对 NSX 
managet 的 安全 性 ，VMwate NSX 提 供 了 用 户 认 证 机 制 ， 以 及 对 所 有 的 操作 都 保存 相关 的 日 志 ， 以 便于 后 续 的 稽查 。 


> 针对 虚拟 网 络 实际 共享 资源 的 问题 ，NSX 提 供 了 虚拟 防火 墙 (Virtual Firewall) 以 及 QoS 控制 。 


7A ”软件 资源 协调 层 的 安全 
需要 利用 软件 定义 的 计算 、 存 储 以 及 网 络 等 安全 平台 ， 构 建 一 个 全 局 的 安全 平台 ， 如 图 7-11 所 示 。 


软件 资源 调度 层 的 安全 性 ， 主 要 涉及 安全 方面 的 管理 和 调度 ， 


计算 安全 平台 存储 安全 平台 


图 7-11 安全 协调 平台 
安全 协调 平台 有 以 下 的 作用 : 
` 管理 和 控制 各 个 安全 平台 ， 自 上 而 下 的 分 配 安 全 策略 ， 供 计算 、 存 储 、 安 全 等 平台 统一 实施 。 
* 集成 底层 各 平台 的 用 户 访问 控制 ， 构 建 统 一 的 身份 与 访问 授权 (Identity and Access Management, IAM) o 


` 收集 软件 定义 的 计算 、 存 储 、 网 络 相关 的 操作 数据 〈 比 如 日 志 ) ， 进 行 统一 分 析 ， 定 位 错误 源头 ， 然 后 制定 相关 策略 。 


74.1 统一 的 身份 与 访问 授权 管理 


对 于 统一 的 身份 与 访问 授权 管理 (IAM) ， 可 以 使 用 RSA 收 购 的 Aveska 产 品 。Aveksa 是 一 个 针对 业务 驱动 的 身份 和 访问 管理 平台 ， 为 企业 提供 自动 化 的 身份 周期 管理 。 基 于 Contro| 的 架构 ，Aveksa 的 
客户 可 在 企业 内 部 使 用 统一 的 位 置 进行 管理 ， 控 制 和 执行 一 致 的 身份 和 访问 策略 。 同 理 Aveksa 也 可 以 用 于 SDDC 内 部 ， 进 行 安 全 管理 平台 的 统一 身份 和 授权 管理 。 


图 7-12 给 出 了 Aveksa ControlXs 的 架构 ， 我 们 可 以 看 出 架构 中 主要 有 两 层 : 逻辑 业务 层 和 数据 收集 层 。 逻 辑 业务 层 有 三 个 子 层 : 


. 业务 用 户 界面 ”管理 应 用 程序 。 主 要 是 有 关 各 个 应 用 的 访问 控制 、 策 略 、 资 源 的 生命 周期 管理 ， 各 个 资源 的 授权 、 修 复 、 监 控 的 管理 ， 以 及 GRC 方 面 的 一 些 管理 。 比 如 其 中 的 Access Request managet 模 
块 为 组 织 中 诸如 经 理 、 主 管 、 资 产 所 有 者 和 其 他 用 户 ( 指 通过 Aveska 接 口 的 用 户 ) 进行 资源 的 访问 和 配 改 。 


- 集成 的 工作 流 引 擎 ”用 于 处 理 和 协调 从 XMDB 中 收集 的 数据 。 


高 性 能 数据 处 理 层 ”该 层 中 的 Access Management Database (XMDB) 数据 库 为 用 户 提供 一 个 单一 、 可 靠 的 中 央 信息 ， 比 如 存储 资源 以 及 相关 的 持 有 者 。 所 有 的 数据 都 在 这 层 处 理 以 获得 最 佳 性 能 和 可 扩 
展 性 o 
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图 7-12 Aveksa ControIXS TM 架构 


数据 收集 层 定义 了 数据 收集 的 模板 和 接口 : 


: Collector 用 于 在 各 种 被 管理 的 应 用 中 提取 数据 ， 比 如 在 组 织 中 有 哪些 账号 有 权限 访问 应 用 ， 哪 些 账号 有 权限 访问 共享 文件 系统 。 数 据 收集 的 定义 是 实现 访问 控制 的 先决 条 件 ， 可 由 Aveksa 平 台 协 同 完 
成 。 它 构造 标识 CAP) 、 授 权 、 应 用 、 账 户 、 和 角色 和 数据 资源 对 象 ， 并 从 收集 到 的 原始 数据 中 创建 它们 之 间 的 逻辑 关联 。 


- Access Fulfillment Express 根据 数据 收集 (Collector) 的 相关 定义 ， 从 需要 被 管理 的 应 用 中 提取 相关 的 信息 。 
Aveksa 现 在 可 以 和 Amazon EC2、Salesforce、 微 软 的 Active Directory 等 软件 进行 AM 的 整合 ， 在 SDDC 中 也 有 用 武之 地 ， 比 如 OpenStack 的 keystone 整 合 ， 前 提 是 OpenStack 实 现 Aveksa 所 定义 的 
IAM 的 一 些 接口 。 


7.4.2 ”安全 技术 的 统一 运用 


SDDC 的 用 户 不 仪 希 望 利用 SDDC 提 供 的 各 类 服务 来 实现 更 好 的 扩展 性 、 管 理性 ， 以 满足 业务 的 需求 ， 同 时 用 户 对 安全 需求 也 很 高 。 前 面 我 们 分 别 介绍 了 软件 定义 的 计算 、 存 储 、 网 络 方面 的 安全 需求 和 
相关 的 方法 学 ， 在 这 一 节 ， 我 们 将 探讨 这 几 个 模块 共同 协作 来 保护 用 户 数 据 的 安全 性 。 


用 户 的 数据 主要 在 数据 中 心 的 计算 、 网 络 、 存 储 这 三 个 载体 中 流动 ， 如 图 7-13 所 示 。 我 们 可 以 举 几 个 数据 流动 的 相关 例子 。 
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图 7-13 ”数据 流向 图 


` 数据 从 计算 一 网 络 一 存储 的 流动 : 假设 一 个 用 户 在 单个 虚拟 机 中 进行 相关 的 科学 计算 ， 计算 结束 后 ， 把 相关 结果 (数据 ) 存放 在 一 个 NFS servet 上 。 那 么 在 这 个 例子 中 ， 数 据 在 计算 中 产生 ， 通 过 网 
络 ， 最 终 存放 在 存储 上 。 


数据 从 网 络 一 计算 一 存储 的 流动 : 用 户 在 SDDC 中 部 署 了 一 个 虚拟 机 ， 运 行 SSH 服 务 。 数 据 中 心 外 部 的 菜 个 应 用 通过 该 虚拟 机 提供 的 SSH 端 口 ， 进 行 数据 的 传输 ， 最 后 相关 的 数据 保存 在 虚拟 机 的 硬盘 


- 数据 从 网 络 一 存储 的 流动 : 用 户 在 SDDC 中 的 个 人 虚拟 数据 中 心中 ， 构 建 了 一 个 对 象 存储 服务 (比如 可 以 是 亚 马 进 的 S3 服 务 ) , 那么 数据 直接 从 网 络 进入 存储 。 


显而易见 ， 大 多 数 情 况 下 我 们 需要 使 用 SDDC 提 供 的 计算 资源 。 如 果 没 有 计算 ,只 利用 SDDC 的 网 络 和 存储 ， 安 全 问题 将 会 变 得 简单 一 些 。 在 这 样 的 情况 下 ， 从 SDDC 角 度 来 看 ， 只 需 解决 用 户 数 据 在 数 
据 中 心 传输 时 网 络 和 存储 上 的 安全 性 ， 具 体 可 参考 软件 定义 层 的 存储 和 网 络 安全 的 一 些 解 决 方案 。 对 用 户 而 言 ， 如 果 要 求 数据 的 高 安全 性 ， 最 简单 的 方法 就 是 把 数据 进行 加 密 ， 然 后 放 到 SDDC 中 。 这 样 用 
户 把 SDDC 提 供 的 存储 当成 一 个 傻 “ 磁 盘 ”， 就 像 用 户 在 PC 上 使 用 的 U 盘 一 样 。 这 样 的 用 例 主要 针对 一 些 中 小 客户 ， 比 如 仅 使 用 Amazons3 的 用 户 。 当 然 这 样 的 方法 学 ， 我 们 在 安全 存储 那 一 节 提 过 ， 可 能 
导致 用 户 不 能 享受 SDDC 提 供 的 一 些 高 级 服务 ， 比 如 重复 数据 删除 。 


为 此 我 们 主要 讨论 计算 存在 情况 下 ， 用 户 数据 的 安全 保护 。 假 设 一 个 用 户 需 要 使 用 SDDC 构 建 一 个 客户 自 定义 的 数据 中 心 ， 进 行 数据 的 分 析 和 服务 ， 也 就 是 在 SDDC 上 搭建 一 个 客户 自 定义 的 数据 中 心 。 
那么 显然 SDDC 需 要 给 用 户 提 供 各 种 各 样 的 资源 ， 单 一 的 PaaS、laaS 显 然 不 能 满足 需求 。 先 让 我 们 分 析 一 下 ， 在 这 个 例子 中 ， 客 户 可 能 需要 SDDC 提 供 如 下 的 服务 来 构建 一 个 客户 自 定义 的 数据 中 心 : 


计算 方面 需要 各 种 类 型 配置 的 虚拟 机 。 


` 存储 方面 ”需要 提供 各 类 型 的 存储 服务 ， 诸 如 文件 服务 (CIFS/NAS 等 ) 、 块 存储 服务 、 对 象 存 储 服务 〈 提 供 各 种 REST API 接 口 ) 、 数 据 备 份 服务 等 。 


` 网 络 方面 ” 需 要 提供 独立 于 SDDC 物 理 网 络 的 、 和 其 他 用 户 隔离 的 虚拟 网 络 ， 并 且 提 供 相 关 的 外 部 网 络 IP 和 带宽 。 


假设 该 用 户 对 其 虚拟 数据 中 心 的 数据 需要 高 等 级 的 安全 性 : 指 不 仅仅 防止 来 自 数据 中 心 外 部 的 攻击 ， 其 他 的 租户 还 包括 数据 中 心 的 管理 员 。 那 么 需要 采取 以 下 的 措施 。 为 了 方便 前 述 ， 可 参考 图 7-14.。 
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图 7-14 协同 安全 用 例 
(1) 计算 安全 平台 需要 的 措施 
- 利用 TPM 相 关 技 术 ， 在 硬件 上 提供 根 信 任 ， 并 提供 可 信任 的 VMM。 在 主机 启动 的 时 候 ， 进 行 相关 度量 。 


* 严格 控制 VMM 的 用 户 管理 接口 ， 不 允许 管理 员 通 过 接口 去 dump 在 执行 的 虚拟 机 的 状态 或 者 数据 。 


` 虚拟 机 硬盘 上 的 数据 ， 使 用 密 文 进行 存储 ， 相 关 的 密 钥 由 VMM 管 理 。 当 虚拟 机 正在 运行 ， 读 写 虚 拟 硬 盘 上 数据 的 时 候 ，VMM (或 使 用 相关 硬件 ) 进行 相关 的 加 解密 工作 。 在 这 样 的 保护 措施 下 ， 即 使 
某 些 恶意 的 管理 员 也 不 能 获取 用 户 虚 拟 机 的 相关 内 容 。 


» 其 他 用 户 的 虚拟 机 不 允许 和 该 用 户 共享 一 个 主机 。 
* 对 用 户 虚 拟 机 的 所 有 操作 ， 必 须 进 行 相关 安全 记录 。 
(2) 网 络 安全 平台 需要 的 安全 措施 
. 确保 运行 在 每 一 个 主机 上 的 NVE 都 是 签名 认证 的 ， 以 防止 恶意 的 NVE 从 网 络 上 泄露 用 户 的 数据 。 
当 使 用 Overlay 网 络 虚 拟 化 ， 构 建 用 户 的 网 络 时 ， 对 1L3 网 络 的 通信 进行 加 密 ， 防 止 来 自 物理 网 络 的 攻击 。 
: 给 用 户 的 虚拟 网 络 在 物理 的 网 络 链 路 上 提供 相应 的 QoS 保 障 ， 以 防止 DoS 攻 击 。 
当 用 户 的 主机 进行 迁移 的 时 候 ， 相 关 的 传输 信道 提供 QoS 保 障 ， 并 采用 加 密 的 信道 。 
- 限制 SDDC 管 理 员 的 权限 。 人 允许 其 管理 、 配 置 以 及 销毁 用 户 的 网 络 ,， 但 是 不 允许 dump 用 户 虚 拟 网 络 传输 的 内 容 。 
. 通过 控制 平台 ， 管 理 NVE、 虚 拟 交 换 机 、 物 理 交 换 机 、 虚 拟 防 火 墙 的 所 有 操作 必须 记录 。 
(3) 存储 安全 平台 需要 的 安全 措施 
| 分 配给 该 用 户 的 存储 设备 是 可 信任 的 ， 该 存储 设备 启动 的 时 候 需 要 进行 相关 的 度量 ， 包 括 存 储 的 一 些 软 件 。 


. 存储 在 设备 上 的 用 户 数据 需要 被 加 密 ， 密 钥 由 存储 设备 内 置 的 安全 模块 管理 ， 连 管理 员 都 无 法 获得 该 密 钥 。 


+ 如 果 用 户 的 虚拟 机 需要 从 虚拟 网 络 直 接 访 问 存 储 设备 提供 的 文件 服务 (诸如 NAS、CIFS) ,那么 该 存储 设备 需要 配置 相关 的 虚拟 交换 机 以 识别 用 户 的 虚拟 网 络 ， 此 外 ， 从 虚拟 机 到 存储 的 虚拟 通信 和 链 


路 也 应 该 采用 可 信 的 通道 。 


: 其 他 用 户 的 数据 不 允许 和 该 用 户 的 数据 存储 在 同一 个 设备 上 。 
- 存储 设备 所 有 管理 的 操作 需要 被 记录 。 
(4) 协同 方面 


针对 该 用 户 的 虚拟 数据 中 心 ，SDDC 提 供 一 个 针对 该 客户 的 安全 管理 平台 ， 以 保证 : 


全 管理 平台 控制 计算 、 网 络 、 存 储 平台 ， 保 持 安全 策略 的 一 致 性 。 
:自动 化 收集 计算 、 网 络 、 存 储 平台 的 相关 操作 数据 《比如 安全 日 志 ) ， 进 行 相关 的 数据 分 析 ， 侦 测 可 能 存在 的 操作 。 


- 任何 通过 安全 管理 平台 的 操作 必须 被 记录 ， 如 安全 策略 的 修改 等 。 


75 “小结 


本 章 根据 软件 定义 数据 中 心 (SDDC) 的 架构 ， 从 数据 中 心 的 安全 设计 原则 出 友 ， 详 细 介 绍 了 怎样 构建 一 个 可 信 的 SDDC。 不 仅 在 物理 上 需要 构建 各 种 各 样 的 安全 措施 ， 而 且 更 需要 在 软件 定义 层 提 供 安 
全 的 计算 、 网 络 和 存储 ， 并 进行 协同 工作 。 一 个 好 的 SDDC 不 仅 需 要 从 自身 的 角度 考虑 ， 保 护 数据 中 心 的 资产 (包括 软件 、 硬 件 ) 的 安全 性 ; 更 需要 根据 用 户 的 需求 ， 提 供 可 定义 的 安全 策略 和 措施 保障 用 
户 数据 的 安全 性 。 


第 8 草 ”软件 定义 的 高 可 用 性 
高 可 用 性 是 这 样 一 种 系统 (或 服务 ) 设计 理念 ， 在 一 个 给 定 的 合约 衡量) 时 间 段 内 ， 系 统 需 要 满足 一 个 约定 的 服务 级 别 ， 服 务 级 别 通 常 表述 为 系统 不 可 用 的 时 间 小 于 某 个 阅 值 。 高 可 用 性 系统 在 现实 
中 有 很 多 应 用 的 场合 ， 例 如 医院 、 银 行 、 电 网 、 航 空 航天 、 工 厂 生产 系统 (流水线 ) 等 


可 用 性 (Availability) 指 的 是 一 个 系统 能 够 为 用 户 提供 服务 ， 如 访问 接 入 、 任 务 调度 、 任 务 执行 、 结 果 反 馈 、 状 态 查 询 等 。 如 果 任 何 一 个 关键 环节 出 错 或 停止 响应 ， 则 称 目 前 系统 状态 为 不 可 用 。 通 常 
将 系统 处 于 不 可 用 状态 的 时 间 称 为 停机 时 间 (或 死机 时 间 ) 。 可 用 性 的 量化 衡量 : 可 用 性 为 系统 可 用 时 间 占 衡量 时 间 段 的 百分比 ， 采用 一 年 或 一 个 月 作为 衡量 时 间 段 ， 具 体 选 择 取 决 于 服务 合约 、 计 量 
收费 等 实际 需求 。 表 8-1 是 一 个 简单 的 数据 表 ， 在 给 出 了 不 同 的 可 用 性 指标 下 ， 每 年 /月 /日 允许 的 停机 时 间 。 


表 8-1 系统 可 用 性 与 停机 时 间 对 照 表 


TA Oo ZEE 


99.9% 10.1 分 钟 
99.99% 1.0 分 钟 
99.999% 6.05 和 


99.9999% 31.5 秒 0.605 各 


零 停 机 时 间 系 统 设计 意味 着 以 个 系统 的 平均 失效 间隔 时 间 (Mean Time Between Failure, MTBF) 大 大 超过 了 系统 的 计划 维护 周期 ， 甚 至 整个 系统 生命 周期 。 在 这 样 的 系统 中 ， 平 均 失 效 间隔 时 间 通 
过 合理 的 建 模 与 模拟 执行 计算 得 到 。 零 停机 时 间 通 常 需要 大 规模 的 组 件 元 余 ， 例 如 在 航天 与 卫星 通信 领域。 我 们 熟知 的 全 球 卫星 定位 系统 (GPS) 就 是 一 个 典型 的 例子 。 


8.1 ”高 可 用 性 系统 设计 


一 般 而 言 ， 高 可 用 性 系统 致力 于 最 小 化 以 下 两 个 指标 : 系统 停机 时 间 与 数据 丢失 。 高 可 用 性 系统 至 少 需 要 保证 在 单个 节点 失败 /停机 的 情况 下 ， 能 够 保持 足够 小 的 停机 时 间 和 数据 丢失 ; 同时 在 下 一 个 可 
能 的 单 节点 失败 出 现 之 前 ， 利 用 热 备 (Hot Standby) 节点 修复 集群 ， 将 系统 恢复 到 高 可 用 性 状态 (避免 拜占庭 错误 的 出 现 ) 。 某 些 高 可 用 性 系统 甚至 需要 致力 于 当 系 统 出 现任 何 单 节点 失效 的 情况 下 ， 保 
证 零 停 机 时 间 和 零 数据 丢失 。 


单 点 失效 (Single Point of Failure, SPoF) ， 即 系统 中 任何 一 个 独立 的 硬件 或 软件 出 现 问题 后 ， 导致 不 可 控 的 系统 停机 或 者 数据 丢失 。 高 可 用 性 系统 的 一 个 天 键 职责 就 是 要 避免 出 现 单 点 失效 。 
为 此 ， 系 统 中 的 所 有 组 件 都 要 保证 足够 的 元 余 率 ， 包 括 存储 、 网 络 、 服 务 器 、 电 源 供应 、 应 用 程序 等 。 更 复杂 的 情况 下 ， 系 统 可 能 会 出 现 多 点 失效 ， 即 系统 中 至 少 两 个 节点 同时 失效 (AMHR A 
相 独 立 ) 。 很 多 高 可 用 性 系统 在 这 种 情况 下 都 无 法 幸存 ， 当 问题 出 现 的 时 候 ， 通 常 避免 数据 丢失 具有 更 高 的 优先 级 ， 相 对 于 系统 停机 时 间 而 言 。 


为 了 达到 999% 甚 至 更 高 的 可 用 性 ， 高 可 用 性 系统 需要 一 个 快速 的 错误 检测 机 制 ， 以 及 保证 相对 很 短 的 恢复 时 间 (Recovery Time Objective, RTO) 。 当 然 ， 尽 量 长 的 平均 失效 间隔 时 间 (MBTF) 对 保 
证 高 可 用 性 也 是 至 关 重 要 的 。 简 而 言 之 ， 尽 量 减 少 出 错 的 次 数 ， 出 错 后 快速 检测 ， 检 测 到 后 尽快 修复 。 


8.1.1 不 可 用 的 常见 原因 


2010 年 在 西班牙 马德里 举行 的 第 四 届 国 际 软件 质量 与 可 维护 性 讨论 会 上 ，Ulrik Franke, Pontus Johnson 等 人 的 一 份 调查 报告 罗列 了 企业 IT 系 统 出 现 不 可 用 的 常见 原因 ， 并 按 重 要 性 对 其 进行 了 排序 。 
企业 系统 不 可 用 的 原因 ， 通 常 源 于 没有 遵循 以 下 一 些 最 佳 实践 原则 ( 按 重要 性 降序 排列 ) : 


1) 相关 组 件 的 监控 (Monitoring of The Relevant Component) 


2 


需求 和 采购 (Requirements and Procurement) 
3) 运营 (Operation) 


A) 避免 网 络 失效 (Avoidance of Network Failure) 


5 


避免 内 部 程序 错误 (Avoidance of Internal Application Failure) 


6) 避免 外 部 服务 失效 (Avoidance of External Services That Fail) 


7) 硬件 环境 (Physical Environment) 

8) MTR (Network Redundancy) 

9) 备份 的 技术 解决 方案 (Technical Solution of Backup) 
10) 备份 的 流程 解决 方案 (Process Solution of Backup) 
11) 物理 位 置 (Physical Location) 

12) 基础 设施 元 余 (Infrastructure Redundancy) 


13) 存储 体系 架构 元 余 (Storage Architecture Redundancy) 


8. 


—À 


2 TRAE BS 


高 可 用 性 系统 设计 的 核心 理念 就 是 组 件 见 余 ， 即 保证 足够 数量 的 备件 。 通 常 的 高 可 用 性 系统 中 ， 备 用 组 件 通过 以 下 三 种 方式 解决 单 点 故障 : 


- 复制 或 副本 (Replication) ”在 系统 中 提供 多 个 完全 一 致 的 组 件 实例 (Instance) ， 实 例 是 并 发 独立 运行 的 。 任 务 或 请 求 被 同时 发 布 到 所 有 实例 上 ， 执 行 结果 的 选取 遵循 多 数 原则 ( 当 出 现 不 一 至 
时 ) o 


-TR (Redundancy) ”在 系统 中 提供 多 个 完全 一 致 的 组 件 实例 ; 任何 一 个 时 间 点 都 只 有 一 个 活跃 的 服务 实例 。 当 活跃 实例 出 现 问题 时 ， 控 制 权 立即 切换 到 某 个 备件 实例 上 。 
- 多 样 性 (Diversity) ”在 系统 中 提供 一 个 组 件 的 不 同 实现 ， 即 不 同 的 实例 通过 不 同 的 方案 实现 同样 的 功能 。 实 例 之 间 的 关系 类 似 于 第 一 种 方式 。 


说 起 来 可 能 有 点 矛盾， 从 系统 设计 的 方法 学 来 说 ， 引 入 更 多 的 组 件 (或 实例 ) 通常 也 会 增加 系统 的 复杂 性 ， 进 而 降低 系统 的 高 可 靠 性 。 对 于 更 复杂 的 系统 来 说 ， 可 能 出 现 故障 的 节点 反而 更 多 了 ， 这 也 
相应 增加 了 正确 实现 的 困难 性 。 根 据 组 件 实例 之 间 的 关系 ， 可 以 将 组 件 元 余 分 为 被 动 (Passive) 元 余 和 主动 (Active) 元 余 两 种 。 


被 动 见 余 的 设计 中 ， 在 任何 一 个 时 间 点 ， 多 个 组 件 实例 中 只 有 一 个 是 活跃 的 ( 即 对 外 提供 服务 ) 。 当 活跃 实例 失效 的 时 候 ， 系 统 会 选择 一 个 备件 作为 新 的 活跃 实例 。 这 种 实现 或 多 或 少 地 会 导致 系统 短 
暂停 机 、 数 据 丢失 或 者 任务 执行 性 能 下 降 。 数 据 中 心里 的 不 间断 电源 (UPS) 就 是 被 动 元 余 的 一 种 实现 ， 另 外 像 轮 船 的 备用 引擎 也 是 一 个 很 好 的 例子 。 在 没有 数据 丢失 或 者 性 能 明显 下 降 的 情况 下 ， 备 件 的 
切换 时 间 也 可 以 不 计 入 系统 的 停机 时 间 。 


主动 元 余 通 常用 于 一 些 更 复杂 的 系统 中 ， 当 任意 单个 实例 失效 时 ， 系 统 不 会 有 明显 的 性 能 下 降 ， 当 然 也 不 会 有 数据 丢失 的 情况 出 现 。 高 可 用 性 系统 中 某 个 组 件 的 多 个 实例 同时 在 线 ， 并 发 地 提供 服务 ; 
可 能 是 所 有 实例 执行 同样 的 任务 ， 也 可 能 是 任务 分 工 与 负载 均衡 。 系 统 设计 中 也 需要 相对 复杂 的 失效 检测 、 任 务 调度 以 及 相应 的 选举 机 制 等 。 互 联网 的 路 由 选择 就 是 主动 元 余 的 一 个 典型 例子 。 


8.1.3 ”高 可 用 性 集群 


高 可 用 性 集群 指 的 是 一 个 由 服务 器 、 网 络 、 存 储 等 组 成 ， 用 户 应 用 程序 正常 运行 所 需 的 所 有 基础 设施 的 集合 。 一 般 来 说 ， 一 个 高 可 用 性 集群 用 于 支持 一 个 用 户 应 用 程序 或 系统 ， 并 对 给 定 服务 级 别 的 可 
用 性 予以 保障 (有 时 也 需要 用 户 应 用 的 支持 ) 。 高 可 用 性 集群 的 实现 采用 的 理念 正 是 前 文 所 述 的 基于 宛 余 组 件 的 系统 设计 ， 从 而 避免 单 点 故障 ， 其 中 的 服务 器 、 网 络 、 存 储 等 均 需要 保证 一 定数 量 的 备件 。 
如 果 没 有 这 样 的 集群 实现 ， 一 旦 某 个 运行 应 用 程序 的 服务 器 系统 衣 演 ， 应 用 程序 就 会 立即 切入 不 可 用 状态 (停机 时 间 ) ; 如 果 某 个 存储 设备 出 现 故 障 ， 则 有 可 能 导致 更 严重 的 数据 去 失 。 高 可 用 性 集群 会 引 
入 一 个 自动 化 的 故障 (硬件 /软件 ) 检测 机 制 ， 在 最 短 的 时 间 内 发 现 并 予以 修复 。 修 复 的 手段 有 很 多 种 ， 包 括 简 单 的 重启 应 用 程序 (如果 只 是 应 用 前 演 或 不 响应 ) ， 以 及 利用 热 备 (Hot Standby) 组 件 蔡 换 
故障 组 件 等 。 


对 于 虚拟 化 的 用 户 应 用 程序 来 说 ， 其 对 应 的 高 可 用 性 集群 也 是 虚拟 的 (逻辑 上 的 ) 。 对 于 虚拟 化 集群 的 可 靠 性 保障 从 粒度 上 来 说 有 别 于 传统 的 物理 集群 ， 多 个 虚拟 化 集群 可 能 并 存 于 一 个 (或 多 个 ) 物 
理 集 群 上 。 虚 拟 化 集群 的 优势 是 大 大 弱化 了 对 应 用 程序 支持 的 要 求 ， 具 有 更 强 的 普 适 性 和 管理 灵活 性 。 当 然 虚拟 化 集群 的 高 可 用 性 实现 也 离 不 开 底层 物理 高 可 用 性 集群 的 保障 。 对 于 这 样 的 物理 集群 来 说 ， 
其 服务 对 象 不 再 是 一 个 传统 的 用 户 应 用 程序 ， 而 是 虚拟 化 平台 (VMware/KVM/XEN) 以 及 构建 于 其 上 的 多 个 虚拟 化 集群 。 


高 可 用 性 集群 一 种 常用 的 节点 故障 检测 机 制 就 是 心跳 检测 ， 通 常 通过 专用 的 管理 网 络 (有 别 于 应 用 程序 的 数据 网 络 ) 发 送 心跳 信号 ， 用 于 监控 每 一 个 组 件 的 健康 状况 。 集 群 的 控制 管理 可 以 采用 全 点 对 
Fa (P2P) 的 方式 ， 也 可 以 采用 集中 控制 ， 当 然 这 里 所 说 的 集中 控制 通常 都 是 逻辑 上 的 ， 为 了 避免 控制 器 的 单 点 故障 ， 通 常 都 采用 分 布 式 的 集群 设计 (规模 比 整 个 高 可 用 性 集群 小 很 多 ) 。 类 似 于 所 有 的 集 
群 设计 ， 高 可 用 性 集群 设计 也 必须 要 解决 的 一 个 问题 就 是 决策 分 裂 (Split-Brain) 。 当 集群 中 的 任 一 节点 (P2P) 或 控制 器 (Controller) 发 生 故 障 ， 决 策 分 裂 问题 就 可 能 出 现 ， 导 致 作业 调度 的 混乱 、 数 据 
不 一 致 、 集 群 分 裂 (Partition) 直至 骨 溃 。 因 此 高 可 用 性 集群 设计 的 时 候 必须 考虑 到 这 种 状况 ， 并 采用 一 些 选 举 机 制 等 技术 。 目 前 已 经 有 不 少 开 源 技术 致 力 于 提供 通用 的 解决 方案 ， 例 如 Apache 提 供 的 


ZooKeeper, 


8.1.4 ”上 典型 的 元 余 配 置 


最 常见 的 高 可 用 性 集群 是 两 节点 的 集群 (如 图 8-1 所 示 ) ， 包 括 主 节点 与 宛 余 节 点 各 一 个 ， 也 就 是 100% 的 元 余 率 ， 这 也 是 集群 构建 的 最 小 规模 。 主 节点 与 元 余 节 点 可 以 是 单 活 (Active-Passive) ， 也 
可 以 是 双 活 (Active-Active) 的 ， 取 决 于 应 用 程序 的 特性 与 性 能 需求 。 也 有 其 他 很 多 的 集群 采用 了 多 节点 的 设计 ， 有 时 达到 几 十 甚至 上 百 个 节点 的 规模 ， 多 节点 的 集群 设计 起 来 相对 复杂 。 常 见 的 高 可 用 性 
集群 配置 大 至 上 有 以 下 几 种 : 

1) Wis (Active-Active) 或 多 活 。 负 载 被 复制 〈 完 全 一 致 ) 或 者 分 发 (DL) 到 所 有 的 节点 上 ; 所 有 的 节点 都 是 活跃 节点 (或 主 节点 ) 。 双 活 或 多 活 机 制 下 的 节点 数 不 限 ， 不 少 于 两 个 即 可 。 对 于 完 


全 复制 的 模式 来 说 需要 的 节点 相对 较 少 ， 运 行 结果 可 以 采用 多 数 原则 (如 果 不 一 致 ) 。 任 何 一 个 节点 的 失效 都 不 会 引起 性 能 下 降 。 分 发 模式 则 或 多 或 少 地 基于 负载 均衡 的 考虑 ， 可 能 节点 数 相对 较 多 。 当 某 
个 节点 失效 的 时 候 ， 任 务 会 被 重新 分 配 到 其 他 活跃 节点 上 。 节 点 失效 会 带 来 一 定 的 性 能 损失 ， 具 体 比例 取决 于 节点 数量 ， 但 不 会 引起 系统 停机 .。 


2) 单 活 (Active-Passive) 。 宛 余 节 点 平时 处 于 备用 状态 ， 并 不 对 外 提供 服务 。 一 旦 主 节点 发 生 故 障 ， 宛 余 节 点 在 最 短 的 时 间 内 上 线 并 接管 余下 的 任务 。 这 种 配置 需要 较 高 的 设备 宛 余 率 ， 通 常见 于 两 
节点 集群 。 常 见 的 备用 方式 有 热 备 (Hot Standby) 和 冷 备 (Cold Standby) 两 种 。 
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两 节点 高 可 用 性 集群 


图 8-1 
3) 单 节点 见 余 (N+1) 。 类 似 于 单 活 机 制 ， 提 供 一 个 处 于 备用 状态 的 元 余 节 点 。 不 同 的 是 ， 主 节点 可 能 有 多 个 ; 一 旦 某 个 主 节 点 发 生 故 障 ， 宛 余 节 点 马上 上 线 蔡 换 。 这 种 模式 多 用 于 某 些 服务 本 来 就 
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需要 多 实例 运行 的 用 户 系 统 。 细 心 的 读者 可 能 已 经 发 现 ， 单 活 模式 实际 上 是 这 种 模式 的 一 种 特例 。 
4) ZHANR (N+M) 。 作 为 对 单 节点 元 余 机 制 的 一 种 扩展 ， 提 供 多 个 处 于 备用 状态 的 匈 余 节点 。 这 种 模式 适用 于 包含 多 种 (多 实例 运行 的 ) 服务 的 用 户 系统 。 具 体 的 元 余 节 点 数 取 决 于 成 本 与 系统 


可 用 性 的 权衡 。 
当然 理论 上 还 有 其 他 一 些 设计 模式 ， 例 如 基于 元 余 率 与 性 能 保障 的 双重 考虑 ， 双 活 或 多 活 与 单 /多 节点 见 余 的 结合 。 然 而 正如 前 文 提 到 过 的 ， 增 加 元 余 组 件 以 及 采用 更 复杂 的 系统 设计 ， 对 整体 的 可 用 性 


来 说 未 必 是 个 好 消息 ， 某 些 时 候 负 面 效应 甚至 是 主导 的 。 因 此 在 高 可 靠 性 系统 设计 的 时 候 ， 还 是 要 多 遵循 简单 性 原则 。 
从 下 一 节 开 始 ， 我 们 将 对 组 成 高 可 用 性 集群 的 各 类 核心 组 件 逐 一 分 析 ， 包 括 计 算 、 网 络 、 存 储 等。 在 每 一 小 节 中 ， 总 体 上 遵循 从 传统 设计 思路 及 其 面临 的 挑战 出 发 ， 详 细 前 述 现代 化 的 软件 定义 数据 中 


心 (包括 各 个 组 成 部 分 ) 中 解决 问题 的 新 思路 。 随 后 为 读者 描绘 一 幅 软 件 定义 数据 中 心里 高 可 用 性 集群 实现 的 整体 视图 ， 包 括 已 部 分 实现 或 仍 在 构思 中 的 系统 设计 方案 。 


容易 实现 ， 因 而 大 


8.2 ”软件 定义 之 路 一 一 计算 的 高 可 用 性 
计算 的 高 可 用 性 设计 传统 上 包括 两 个 方面 ; 服务 器 集群 的 高 可 用 性 ;应 用 程序 的 高 可 用 性 设计 。 这 两 方面 是 互相 独立 的 ， 却 又 存在 干 丝 万 缕 的 联系 。 特 别 是 第 二 个 方面 ， 实 际 上 并 不 


大 限制 了 能 够 从 高 可 用 性 集群 获 益 的 应 用 程序 范围 ， 这 一 点 我 们 将 在 下 文 为 读者 详细 说 明 。 此 外 ， 基 于 服务 器 虚拟 化 的 软件 定义 计算 ,一 方面 大 大 简化 了 服务 器 集群 的 高 可 用 性 设计 ; 另 一 方面 也 对 应 用 程 


得 高 可 用 性 系统 不 再 那么 “挑食 ”。 


(Fa 


序 的 普 适 性 问题 解决 带 来 全 新 的 思路 ， 使 


8.2.1 “高 可 用 性 对 应 用 的 需求 


并 不 是 所 有 的 应 用 都 能 运行 在 高 可 用 性 集群 上 ， 并 得 到 有 效 的 可 用 性 保障 ， 对 于 传统 的 物理 高 可 用 性 集群 来 说 尤其 如 此 。 大 多 数 应 用 要 在 设计 开发 阶段 就 考虑 到 高 可 用 性 需求 。 传 统 上 来 说 ， 为 了 从 高 
可 用 性 集群 中 获 益 ， 用 户 应 用 程序 至 少 需要 满足 以 下 一 些 需求 ， 其 中 最 后 两 项 是 非常 关键 的 需求 ， 也 是 最 难 完全 满足 的 。 


| 应 用 程序 支持 启动 、 停 止 、 重 启 、 强 制 停止 、 状 态 查询 等 作业 管理 操作 。 操 作 通 常 可 以 通过 命令 行 、 脚 本 或 编程 接口 方式 进行 。 熟 悉 操 作 系 统 的 读者 可 能 马上 会 想到 一 个 非常 典型 的 例子 一 一 
UNIX/Linux 的 服务 管理 。 此 外 如 果 应 用 程序 能 支持 多 实例 同时 运行 ， 相 应 的 其 普 适 性 也 会 更 好 。 


> 应 用 程序 使 用 共享 外 部 存储 (SAN/NAS) 作为 数据 持久 化 的 媒介 。 这 对 保证 单 点 故障 时 尽量 减少 数据 丢失 是 非常 重要 的 。 
+ 应 用 程序 的 状态 /数据 应 尽 可 能 多 地 保存 在 非 易 失 的 共享 存储 上 ， 而 且 保存 的 状态 是 一 致 的 ， 从 而 使 得 在 其 他 〈 如 备件 ) 服务 器 上 从 最 后 一 次 保存 的 状态 (从 共享 存储 读 取 ) 重启 应 用 成 为 可 能 。 
C 即使 应 用 程序 前 渍 ， 已 经 持久 化 到 存储 设备 上 的 状态 /数据 也 不 会 损坏 《不 一 致 ) ， 应 用 重启 的 时 候 还 可 以 从 已 保存 的 状态 恢复 运行 。 


如 果 你 的 应 用 程序 满足 以 上 需求 ， 提 供应 用 程序 高 可 用 性 监控 的 技术 和 产品 有 很 多 选择 。 举 个 简单 的 例子 ，EMC AutoStart 就 是 一 个 用 来 监控 你 的 应 用 程序 和 数据 服务 ， 并 支持 在 备用 服务 器 上 重启 应 
用 的 软件 。 软 件 可 以 运行 在 多 个 操作 系统 上 ， 包 括 UNIX、Linux 和 Windows 环 境 。 因 为 这 不 是 本 书 的 重点 ， 就 不 一 一 展开 介绍 了 。 


在 基于 服务 器 虚拟 化 的 软件 定义 计算 环境 下 ， 问 题 的 解决 将 变 得 更 加 容易 ， 对 应 用 程序 也 不 再 有 那么 严 苛 的 要 求 。 我 们 来 看 看 针对 以 上 提 到 的 几 点 需求 ， 在 软件 定义 数据 中 心里 有 什么 样 新 的 解决 思 
路 : 


* 作业 管理 其 中 相当 一 部 分 的 操作 可 以 通过 启动 、 重 启 、 关 机 (Shutdown) 、 强 制 断 电 (Power off) . ALAR (Suspend) . (RAR (Snapshot) 等 常见 的 虚拟 机 管理 功能 实现 。 状 态 查询 也 可 以 结合 虚拟 
机 的 健康 监测 和 虚拟 机 内 代理 (Agent) 的 进程 监测 等 方式 予以 蔡 代 。 


: 共享 外 部 存储 ”在 继续 沿用 传统 SAN/NAS 存 储 的 基础 上 ， 软 件 定义 存储 也 为 存储 的 管理 、 数 据 的 保障 提供 了 更 加 灵活 强大 的 保障 。 


* 状态 保存 于 非 易 失 存储 ”软件 定义 计算 的 环境 可 以 对 虚拟 机 的 内 存 数 据 提供 额外 的 保护 。 例 如 通过 周期 性 的 虚拟 机 (虚拟 集群 ) 快照 就 是 一 种 普 适 性 的 新 型 保护 方式 ， 提 供 了 对 用 户 应 用 的 全 方位 的 
一 致 性 保护 ， 包 括 CPU 状 态 、 内 存 数据 、 进 程 状 态 、 设 备 状 态 等 ， 对 于 应 用 程序 来 说 是 完全 透明 的 。 


+ 持久 化 数据 的 一 致 性 对 于 不 满足 此 项 条 件 的 应 用 程序 来 说 ， 软 件 定义 计算 提供 了 一 个 新 的 替代 方案 ， 即 上 文 提 到 的 通过 周期 性 的 虚拟 机 【虚拟 集群 ) 快照 进行 状态 保存 ， 并 保证 状态 的 一 致 性 和 可 
恢复 性 。 新 的 解决 方案 提供 了 一 种 粗 粒度 (对 于 应 用 程序 级 别 的 设计 ) ， 然 而 却 是 首 适 的 新 思路 (应 用 程序 透明 ) 。 


下 面 我 们 通过 两 个 典型 的 例子 ， 为 读者 详细 介绍 在 软件 定义 计算 环境 下 ， 如 何 对 应 用 程序 的 高 可 用 性 提供 保障 。 
8.2.2 ”高 可 用 性 集群 一 VMware HA 
1.VMware HA 的 功能 与 特性 


VMware HA (High Availability) 通过 减少 服务 器 和 操作 系统 失效 / 峙 省 人 带 来 的 停机 时 间 ， 为 运行 在 虚拟 机 内 的 应 用 程序 提供 高 可 用 性 保障 。 这 种 保障 机 制 的 工作 是 独立 于 虚拟 机 内 的 操作 系统 和 应 用 
程序 的 。 对 于 运行 于 软件 定义 计算 环境 中 的 应 用 程序 来 说 ，VMware HA 提供 了 一 种 普 适 的 、 高 效 的 故障 检测 与 保护 机 制 。VMware HA 提供 的 功能 包括 : 


监视 VMwatre vSphetre 服 务 器 以 及 运行 于 其 上 的 虚拟 机 是 否 发 生 故 障 。 
- 当 检 测 到 某 个 服务 器 发 生 故 障 的 时 候 ， 可 以 在 其 他 正常 工作 的 vSphete 服 务 器 上 重启 虚拟 机 。 整 个 过 程 都 是 自动 化 的 ， 不 需要 人 工 干 预 。 
当 检 测 到 某 个 虚拟 机 的 操作 系统 发 生 故 障 时 ， 自 动 重启 虚拟 机 从 而 最 大 可 能 地 减少 停机 时 间 。 


传统 的 高 可 用 性 系统 设计 通常 与 操作 系统 和 应 用 程序 都 存在 比较 紧密 的 耦合 ， 需 要 复杂 的 部 署 和 配置 管理 。 相 对 的 ， 在 软件 定义 平台 中 的 配置 管理 却 相 当 简 洁 明 了 ， 比 如 在 VMware 中 就 只 需要 有 限 的 
几 步 操作 。 此 外 VMware HA 可 以 为 绝 大 多 数 应 用 程序 提供 可 用 性 保护 ， 这 有 别 于 传统 高 可 用 性 方案 要 求 在 程序 设计 阶段 就 予以 支持 。 基 于 软件 定义 计算 的 高 可 用 性 方案 ， 并 不 需要 对 已 有 的 应 用 程序 或 操 
作 系 统 进行 任何 修改 ， 可 以 为 不 符合 传统 高 可 用 性 软件 设计 的 用 户 应 用 提供 保障 。 此 外 VMware HA 已 经 是 一 个 成 熟 的 解决 方案 ， 具 有 良好 的 可 扩展 性 、 可 靠 性 (如 图 8-2 所 示 ) 和 易 用 性 。 
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图 8-2 VMware HA: 可 扩展 性 与 可 靠 性 


(1) 可 扩展 性 


VMware HA 提供 了 良好 的 可 扩展 性 (Scalability) 。 
: EM (Master-Slave) 关系 的 节点 管理 : 可 用 性 的 操作 通过 单一 的 主 节点 协调 ， 并 由 其 负责 与 VMwate vCentet 之 间 的 状态 交换 与 通信 


这 样 的 设计 可 以 将 主机 划分 为 一 个 个 相对 独立 的 自治 单元 ， 在 实 


践 中 一 个 自治 单元 可 能 映射 到 一 个 机 架 ， 具 有 更 好 的 可 扩展 性 。 
C 提供 对 IPv6 网 络 的 支持 : 允许 企业 IT 部 门 使 用 一 个 更 大 的 地 址 空间 。 


简单 的 部 署 机 制 : VMware HA 的 代理 (Agent). 部 署 和 功能 配置 都 很 快速 便捷 。 


(2) 可 靠 性 
基于 实际 的 用 户 需求 与 反馈 ，VMware 采 用 了 一 些 额 外 的 特殊 机 制 来 增强 高 可 用 性 解决 方案 的 可 靠 性 。 


. 不 存在 对 外 部 组 件 的 依赖 关系 ， 例 如 DNS 解析 ( 考 版 本 中 可 能 存在 ) ， 这 大 大 减少 了 外 部 组 件 失效 引起 的 系统 停机 
舍 。 多 重 通信 方式 提供 了 更 好 的 宛 余 性 ， 为 节点 的 健康 状况 评估 提供 了 更 灵活 的 方案 。 


, VMware HA 还 支持 通过 共享 存储 (Datastote) 进行 通 人 


.多重 的 节点 通信 方式 : 除了 最 传统 的 网 络 通信 
- 提供 对 VM 间 结对 (或 反 结 对 ) 规则 的 支持 (VM-VM Anti-Affinity Rule) 。 当 一 个 VM 间 结对 规则 被 定义 的 时 候 ， 组 内 的 多 个 虚拟 机 必须 运行 于 同一 物理 服务 器 (或 vSphere) 上 ; 当 一 个 VM 间 反 结对 规 


-L 
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则 被 定义 的 时 候 ， 组 内 的 多 个 虚拟 机 必须 运行 在 不 同 的 物理 服务 器 (或 rvSphere) 上 。 这 一 机 制 通常 在 VMwate 动 态 资源 调度 (Dynamic Resource Scheduling, DRS) 中 使 用 。 
(3) 易 用 性 
VMware HA 的 用 户 界面 设计 非常 简洁 ， 能 错误 等 。 当 可 用 性 保障 失效 时 (虽然 极 少 发 生 ) ， 用 户 也 可 以 通过 一 个 整合 的 日 
寻找 问题 解决 的 线索 。 


够 让 用 户 快速 查询 到 集群 中 每 一 个 节点 的 角色 (Master/Slave) 、 状 态 


2.VMware HV 架构 设计 
在 VMware vSphere 中 ， 有 一 个 专门 负责 高 可 用 性 的 组 件 FDM (Fault Domain Manager) 提供 了 简单 而 有 具有 高 度 弹 性 的 实现 。 如 图 8-3 所 示 ，vSphere 中 的 FDM 代 理 (Agent) 实现 了 与 vCenter 之 


间 的 纵向 通信 ， 此 外 也 负责 FDM 之 间 的 横向 通信 。 在 vSphere 内 部 ，FDM 通 过 与 本 地 hostd 之 间 的 接口 获取 状态 ， 并 执行 相应 的 高 可 用 性 控制 操作 。 
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图 8-3 VMware HA: 故障 域 管 理 器 (FDM) 
“4H (Master) 节点 发 生 故 障 时 ， 一 个 选举 过 程 会 被 触发 ， 所 有 从 属 (Slave) 节点 会 选举 出 新 的 主 节点 。 采 用 的 选举 方法 简单 可 靠 : 拥有 最 多 Datastore 的 节点 成 为 新 的 主 节 点 ; 如 果 有 多 个 节点 


- 监视 Slave 主 机 群 的 状态 。 

.与 vCentet 进 行 状态 交换 。 

- 执行 来 自 vCentet 的 配置 操作 。 
重启 失败 的 虚拟 机 。 


虽然 存在 种 种 联系 ，VMware HA 的 工作 实际 上 独立 于 DRS (动态 资源 调度 ) 和 vMotion (虚拟 机 动态 迁移 ) 。 此 外 ， 大 部 分 的 高 可 用 性 的 心跳 检测 信号 只 在 vsphere (ESX) 主机 之 间 传 播 ， 并 不 依赖 
于 vCenter 服 务 器 。 不 过 鉴于 HA 的 配置 需要 依赖 VC， 所 以 我 们 一 般 认 为 HA 还 是 需要 依赖 于 VC 服务 器 的 。VMware HA 通过 vCenter 获 取 虚 拟 机 的 状态 信息 ， 并 设置 虚拟 机 的 保护 策略 。 当 检测 到 某 个 
vSphere 主 机 的 连接 断 开 后 ，vCenter 会 找到 相应 的 主 节点 ， 并 通知 其 中 的 代理 (Agent) 将 运行 在 失效 主机 上 的 所 有 虚拟 机 设 为 非 保护 状态 ， 并 试图 将 其 在 其 他 节点 上 重启 。 


对 于 用 户 应 用 程序 来 说 ，VMware HA 提供 的 高 可 用 性 保障 并 不 是 完全 透明 的 。VMware 的 解决 方案 实际 上 是 用 虚拟 机 作为 监控 和 重启 的 对 象 ， 代 奉 了 传统 高 可 用 性 方案 中 的 程序 进程 。 应 该 认识 到 的 
现状 是 ， 当 虚拟 机 被 重启 于 其 他 vSphere 主 机 的 时 人 息 ， 虚 拟 机 内 的 操作 系统 和 应 用 程序 实际 上 是 没有 得 到 保护 的 。 对 于 用 户 应 用 程序 来 说 ， 必 须 能 够 在 操作 系统 启动 时 自动 运行 ， 并 从 持久 化 存储 中 最 后 一 
次 保存 的 状态 恢复 而 继续 。 如 果 能 用 休眠 或 快照 恢复 代 蔡 虚拟 机 的 重启 操作 ， 则 可 实现 应 用 程序 的 无 颖 迁移 ， 条 件 是 问题 主机 并 未 月 溃 (可 能 是 网 络 中 断 导 致 的 隔离 或 分 区 ) 。 


3.VMware App HA 


对 于 某 个 虚拟 机 内 的 操作 系统 或 应 用 程序 引起 的 失效 ， 由 于 vSphere 主 机 工作 正常 ，VMware HA 就 不 适合 处 理 这 种 情况 。 这 其 实 是 虚拟 机 带 来 的 新 问题 。 对 于 这 种 情况 ， 就 轮 到 VMware App HA 出 场 
了 。 作 为 VMware HA 的 有 效 补充 ，App HA 提供 了 应 用 程序 级 别 的 监视 和 自动 修复 能 力 。App HA 人 允许 用 户 自 定义 相应 的 管理 策略 ,例如 服务 重启 的 尝试 次 数 ， 服 务 重 启 的 等 待 时 间 ， 以 及 什么 样 的 情况 下 
重启 虚拟 机 等 。 通 过 和 VMware HA 的 整合 ，App HA 支持 多 样 化 的 恢复 选项 ， 例 如 重启 应 用 服务 还 是 虚拟 机 (如 图 8-4 所 示 ) 。 
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图 8-4 VMware vSphere HA 


VMware App HA 通过 VMware vFabric 来 监视 应 用 程序 。 部 署 的 时 候 ， 需 要 在 每 个 vCenter 服 务 器 上 部 署 两 个 虚拟 应 用 (虚拟 机 ) : App HA 和 Hyperic (如 图 8-5 所 示 ) 。 前 者 负责 存储 管理 用 户 定义 
策略 ;后 者 监视 应 用 程序 并 执行 用 户 的 高 可 用 性 策略 。 此 外 对 于 每 个 受 保护 的 用 户 虚拟 机 来 说 ， 一 个 来 自 Hyperic 的 代理 会 部 署 在 其 中 。 
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图 8-5 VMware App HA 


8.2.3” 零 停机 保障 一 一 VMware FT 


基于 VMware HA 和 App HA 的 高 可 用 性 方案 致力 于 最 小 化 系统 停机 时 | 间 ， 如 果 用 户 需要 更 高 级 别 的 保护 如 零 停机 时 间 ， 就 要 依靠 YMware FT (Fault Tolerance) 了 。VMware FT 保证 了 单 点 故障 的 情 
况 下 ， 用 户 应 用 程序 不 会 中 断 服务 ， 即 具备 持续 的 可 用 性 。 其 原理 是 创建 一 个 影子 (Secondary) 虚拟 机 ， 时 刻 与 主 (Primary) 虚拟 机 保持 同步 。 影 子 虚 拟 机 运行 于 不 同 的 vSphere 主 机 上 ， 当 硬件 失效 
Bj, VMware FT 会 自动 触发 故障 修复 机 制 ， 由 影子 虚拟 机 接管 应 用 程序 (无 颖 迁移 ) 。 故 障 修复 过 程 中 不 会 有 任何 的 服务 中 断 或 数据 丢失 。 故 障 修复 完成 后 ，VMware FT 会 创建 一 个 新 的 影子 虚拟 机 来 提 
供 持续 的 高 可 用 性 保护 。 如 果 是 影子 虚拟 机 (或 其 所 在 的 主机 ) 发 生 故 障 ， 同 样 会 触发 新 影子 虚拟 机 的 创建 与 蔡 代 。 与 VMware HA 不 同 的 是 ，VMware FT 对 于 应 用 程序 是 全 透明 的 ， 具 有 广泛 的 普 适 性 ， 
对 于 传统 高 可 用 性 方案 所 不 适用 的 案例 尤其 有 价值 。 概 括 来 说 ，VMware FT 具有 以 下 一 些 特性 : 


. 兼容 所 有 类 型 的 共享 存储 ， 包 括 Fibre Channel、iSCSI、FCoE 和 NAS (NFS/CIFS) 。 
- 兼容 所 有 VMware 支 持 的 操作 系统 (Linux/Windows/MAC 等 大 多 数 现代 操作 系统 ) o 


- 运行 不 依赖 于 vCentet 服 务 器 。vCentet 只 在 配置 FT 的 时 候 起 作用 ， 之 后 即使 vCentet 服 务 器 离线 ， 高 可 用 性 机 制 仍然 正常 工作 ， 包 括 从 主 庶 拟 机 到 影子 虚拟 机 的 转移 ， 以 及 新 影子 虚拟 机 的 创建 ， 都 不 依 
赖 于 vCentet 服 务 器 的 在 线 。 


VMware FT 的 实现 原理 是 : VMware vLockstep 抓 取 所 有 发 生 在 主 虚 拟 机 上 的 输入 和 事件 ， 并 通过 网 络 将 其 发 送 到 运行 在 其 他 主机 上 的 影子 虚拟 机 ， 发 送 的 数据 称 为 Logging Traffic， 保 证 影子 虚拟 机 


的 运行 状态 与 主 虚 拟 机 完全 一 致 。 影 子 虚 拟 机 可 以 随时 接管 主 虚 拟 机 的 运行 ， 导致 任何 的 服务 中 断 ， 以 此 提供 高 可 用 性 的 保障 。Logging Traffic 包括 虚拟 机 的 网 络 和 存储 MO 数据 ， 还 有 虚拟 机 操作 系 
统 的 内 存 数 据 。 


系统 运行 的 时 候 ， 主 虚拟 机 和 影子 虚拟 机 持续 地 交换 心跳 数据 ， 从 而 实现 互相 监视 。 主 虚拟 机 和 影子 虚拟 机 必须 运行 在 不 同 主机 上 ， 避 免 一 台 主 机 失效 导致 两 个 虚拟 机 的 完全 丢失 。 为 了 避免 大 脑 分 裂 
(Split-Brain) 问题 的 出 现 ， 即 同一 时 刻 出 现 两 个 主 虚 拟 机 ，VMware FT 利用 基于 共享 存储 的 文件 锁 来 协调 故障 修复 过 程 ， 保 证 任何 时 候 都 只 有 一 个 虚拟 机 实例 能 够 作为 主 虚拟 机 运行 。 


作为 一 个 很 好 的 应 用 实例 ，VMware FT 可 以 用 来 保护 Hadoop 集 群 中 运行 关键 组 件 的 虚拟 机 ， 例 如 域名 节点 (Name Node) 和 作业 监控 (Job Tracker) 。 此 外 通过 与 VMware HA 的 有 机 整 
合 ，VMware FT 也 可 以 用 于 按 需 定制 的 高 可 用 性 保障 。 在 正常 情况 下 ， 虚 拟 机 通过 VMware HA 予以 保障 ; 当 应 用 进入 关键 阶段 时 ， 可 以 动态 提升 保护 级 别 ， 即 VMware FT 保障 。 管 理 员 可 以 随时 打开 或 关 
闭 针 对 某 个 虚拟 机 的 VMware FT 保障 ， 操 作对 于 用 户 来 说 是 完全 透明 的 。 举 例 来 说 ， 当 一 个 财务 系统 生成 季度 或 年 度 财务 报表 时 ， 如 果 任 务 中 断 则 无 法 按时 发 布 数据 ， 严 重 的 时 候 可 能 影响 到 关键 的 决策 。 
有 了 按 需 定制 的 高 可 用 性 保障 ， 用 户 可 以 在 运行 数据 分 析 之 前 通过 VMware FT 提升 服务 级 别 ， 在 其 完成 之 后 关闭 或 禁用 从 而 降低 成 本 。 对 于 用 户 来 说 ， 这 样 的 解决 方案 兼顾 了 灵活 性 和 经 济 性 ， 在 软件 定义 
数据 中 心 和 云 计 算 平 台中 具有 广泛 的 应 用 前 景 (服务 级 别 保障 ) 。 


8.3 ”软件 定义 之 路 一 一 存储 的 高 可 用 性 


存储 的 高 可 用 性 设计 包含 两 层 意思 : 存储 设备 本 身 (AFA, In-Box) 的 高 可 用 性 和 跨 存储 设备 (盒子 外 ，Out-of-Box) 的 高 可 用 性 。 前 者 指 的 是 各 大 存储 厂商 (EMC/NetApp/Hitachi 等 ) 的 各 种 
SAN/NAS 存 储 产 品 ， 通 常 都 具有 比较 成 熟 的 设计 ， 或 多 或 少 地 都 考虑 到 高 可 用 性 的 保障 ,使 得 局 部 硬件 (如 磁盘 、 控 制 头等 ) 的 失效 不 会 导致 系统 停机 或 数据 丢失 。 后 者 则 针对 各 种 跨 存储 设备 的 存储 虚拟 
化 (EMC VPLEX, NetApp vFiler、HDS VSP 等 ) 和 软件 定义 存储 产品 (EMC ViPR, IBM SVC, ScalelO, VMware VSAN 等 ) 。 对 于 后 者 来 说 ， 底 下 的 存储 设备 可 以 部 署 在 一 个 数据 中 心 的 不 同位 置 


(机 架 ) ， 也 可 以 部 署 在 多 个 不 同 的 数据 中 心里 ， 甚 至 可 能 跨越 较 长 的 地 理 距 离 (如 基于 容 灾 考虑 ) 。 在 这 一 节 里 ， 以 VPLEX、ScalelO 和 ViPR 为 例 ， 我 们 侧重 介绍 针对 后 者 的 高 可 用 性 设计 思路 与 解决 方 


E 
Bo 


8.3.1 基于 VPLEX 的 高 可 用 性 


EMC VPLEX 提 供 了 针对 跨 存储 设备 以 及 地 理 位 置 的 数据 可 移动 性 和 高 可 用 性 的 一 系列 解决 方案 。VPLEX 实 际 上 是 一 种 独特 的 存储 虚拟 化 技术 ， 基 于 创新 性 的 全 局 缓存 (Global Cache) 同步 机 制 。 一 
方面 ，VPLEX 人 允许 动态 的 全 透明 的 数据 迁移 服务 ( 跨 存储 或 距离 ， 同 步 或 异步 ) ， 从 而 为 本 来 基于 单一 共享 存储 的 解决 方案 (如 VMware vMotion 和 其 他 一 些 集群 技术 ) 提供 跨 存 储 设备 或 地 理 距离 的 可 扩 
展 性 。 另 一 方面 ，VPLEX 为 用 户 的 关键 应 用 提供 了 跨 存 储 设备 的 高 可 用 性 方案 ， 避 免 任何 的 系统 停机 或 数据 丢失 。 这 种 跨 存 储 的 高 可 用 性 方案 对 各 种 同 构 或 异 构 存储 设备 提供 了 广泛 的 支持 ， 涵 盖 了 来 自 
EMC、Hitachi、IBM、Dell 等 主流 存储 厂商 的 40 多 种 存储 平台 。 更 重要 的 是 ， 作 为 一 项 核心 技术 ，VPLEX 提 供 了 跨 数据 中 心 (地 理 距离 ) 的 双 活 /多 活 高 可 用 性 ， 包 括 了 长 距离 的 同步 方案 (VPLEX 
Metro) 以 及 超 长 距离 的 异步 方案 (VPLEX Geo) ， 在 灾难 恢复 等 关键 系统 中 得 到 了 广泛 的 应 用 (如 图 8-6 所 示 ) 。 
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图 8-6 EMC VPLEX: 特性 
VPLEX 产 品系 列 包含 三 个 型 号 (如 图 8-7 所 示 ) : 
: VPLEX Local 支持 跨 存 储 设备 (数据 中 心 内 ) 的 数据 可 移动 性 和 高 可 用 性 。 
: VPLEX Metro 支持 跨 数 据 中 心 (同步 距离 ) 的 数据 可 移动 性 和 高 可 用 性 。 


: VPLEX Geo 支持 跨 数 据 中心 ( 异 步 距离 ) 的 数据 可 移动 性 和 高 可 用 性 。 


此 外 通过 与 第 三 方 数据 故障 恢复 软件 (如 RecoverPoint) 的 整合 ，VPLEX 也 被 广泛 应 用 于 远程 容 灾 与 数据 恢复 的 场合 。 
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图 8-7 VPLEX 的 三 个 版 本 


以 基于 VPLEX Metro 的 高 可 用 性 为 例 ， 部 署 过 程 非常 简单 (如 图 8-8 所 示 ) 。 为 了 满足 VPLEX Metro 的 需求 ， 节 点 之 间 的 网 络 延 时 需要 控制 在 1~5ms。 一 台 VPLEX Witness 服 务 器 被 部 署 在 第 三 方 节 


点 ， 用 于 监控 VPLEX Metro 集 群 。 这 样 分 布 式 的 存储 卷 (Volume) 就 能 够 被 创建 ， 并 用 于 VMware vMotion 或 计算 集群 等 场合 。 
| | 
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延伸 的 vSphere 集 群 ( 包括 分 布 式 资源 调度 和 高 可 靠 功能 ) 或 其 他 高 可 靠 集群 


在 应 用 VMware 产品 情况 下 
的 vMotion 和 工作 负载 分 布 
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图 8-8 VPLEX Metro 部 署 


VPLEX 保 证 数据 一 致 性 的 关键 技术 就 是 分 布 式 全 局 缓存 如 图 8-9 所 示 。 全 局 缓存 包含 了 组 成 VPLEX 集 群 的 所 有 机 头 (Director) 上 所 有 的 内 存 ， 以 及 一 个 分 布 式 算法 。VPLEX 特 有 的 分 布 式 算法 通过 对 关 
键 数据 结构 的 分 布 的 精心 设计 ， 致 力 于 最 小 化 机 头 之 间 的 数据 通信 。 通 过 分 布 式 缓存 ，VPLEX 能 够 给 予 用 户 使 用 传统 磁盘 一 样 的 用 户 体验 。 这 种 设计 是 完全 分 布 式 的 : 任何 一 个 机 头 都 能 够 服务 于 针对 同一 
个 虚拟 卷 的 用 户 请 求 ， 所 有 的 机 头 都 连接 到 同样 的 后 端 物 理 存储 ， 并 拥有 完全 一 致 的 元 数据 (虚拟 卷 到 物理 磁盘 的 映射 ) 。 无 论 用 户 通过 哪个 机 头 访 问 数据 ， 都 能 保证 得 到 一 致 状态 的 最 新 数据 。 


虽然 在 设计 之 初 并 不 是 用 于 软件 定义 存储 、 软 件 定义 数据 中 心 或 云 计算 的 场合 ， 但 通过 与 这 些 新 技术 (特别 是 软件 定义 存储 ) 的 有 效 整合 ，VPLEX 在 全 新 的 场景 里 仍然 大 有 用 武之 地 ， 特 别 是 跨 数据 中 
心 的 数据 迁移 与 高 可 用 性 保障 。 
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图 8-9 VPLEX 分 布 式 缓存 


8.3.2 ScalelO 的 高 可 用 性 


ScalelO 是 一 种 典型 的 软件 定义 存储 解决 方案 ， 基 于 普通 的 商业 化 服务 器 集群 实现 分 布 式 存储 。 通 过 部 署 先进 的 集群 算法 以 及 分 布 式 的 数据 重建 技术 ，ScalelO 提 供 了 企业 级 的 弹性 。ScalelO 的 所 有 组 
件 都 是 全 分 布 式 的 (如 图 8-10 所 示 ) ， 包 括 服 务 端 (ScalelO Data Server, SDS) 、 客 户 端 (ScalelO Data Client, SDC) 以 及 元 数据 管理 器 (Metadata Manager, MDM) 。 对 于 系统 中 所 有 的 存储 数 
据 ，ScalelO 都 提供 两 份 副本 镜像 (将 来 可 能 采用 Erasure Coding) ， 从 而 避免 单 点 故障 。 当 集群 中 某 个 服务 器 发 生 故障 ， 离 线 事件 会 很 快 被 检测 到 (数据 访问 触发 或 元 数据 管理 器 监控 ) 。 之 后 系统 会 将 
其 中 存储 的 数据 重建 并 分 发 到 其 他 在 线 的 服务 器 上 ， 并 通知 元 数据 服务 器 更 新 相关 数据。 


图 8-10 ScaleIO 架 构 与 组 件 


元 数据 服务 器 集群 负责 整个 ScalelO 存 储 系统 的 配置 与 监控 ， 通 常 包含 至 少 三 个 节点 。 一 个 元 数据 服务 器 集权 包含 三 个 组 件 : 主 元 数据 管理 器 (Primary MDM) ; 辅助 元 数据 管理 器 (Secondary 
MDM) ; 协调 者 (Tie-Breaker) 。 系 统 正常 运行 时 ， 所 有 节点 组 成 多 活 模式 的 高 可 用 性 集群 ， 通 过 负载 均衡 的 方式 提供 系统 管理 服务 。 如 果 主 元 数据 管理 器 发 生 故 障 ， 辅 助 元 数据 管理 器 会 立即 接管 所 有 
的 任务 与 功能 ， 直 到 前 者 恢复 。 协 调 者 的 作用 是 双重 的 ， 平 时 作为 高 可 用 性 (多 活 ) 的 组 件 ， 当 前 两 个 组 件 发 生 冲 突 时 负责 协调 避免 死 锁 。 


8.3.3 ViPR 的 控制 器 集群 与 HA 数据 服务 


作为 软件 定义 存储 的 另 一 种 典型 实现 ，ViPR 中 的 基本 人 存储 服务 例如 文件 存储 、 块 存储 和 对 象 存储 都 是 通过 软件 定义 的 服务 方式 提供 的 ， 此 外 例如 复制 、 压 缩 、 高 可 用 性 等 存储 功能 也 是 以 类 似 的 方式 提 
供 ， 此 外 用 户 也 可 基于 ViPR 的 扩展 机 制 开发 新 的 第 三 方 服务 ， 来 实现 高 可 用 性 的 保障 ， 例 如 通过 整合 WYMAX/VNX 等 块 存储 设备 与 VPLEX/RecoverPoint 等 产品 可 以 实现 高 可 用 性 和 容 灾 的 服务 。 


ViPR 的 部 署 包括 两 类 组 件 : 控制 器 (Controller) 和 数据 服务 (Data Service) 。 数 据 服务 组 件 提供 对 象 存储 和 Hadoop 存 储 ， 相 对 比较 简单 ， 而 控制 器 负责 提供 块 /文件 存储 控制 服务 、 负 载 均衡 、 编 
程 接 口 、 命 令 行 以 及 图 形 界面 等 功能 。 作 为 ViPR 的 核心 组 件 ， 控 制 器 通常 采用 集群 的 部 署 方 式 ， 充 分 考虑 系统 的 高 可 用 性 。 


一 方面 ViPR 控 制 器 通过 虚拟 应 用 的 方式 部 署 ， 即 作为 虚拟 机 运行 于 虚拟 化 平台 中 。 相 对 于 部 署 在 物理 服务 器 上 的 方案 来 说 ， 可 以 充分 享受 虚拟 化 带 来 的 管理 红利 。 这 样 一 来 ， 我 们 就 可 以 利用 8.2 节 中 提 
到 的 VMware HA 和 VMware FT， 根据 需求 动态 定制 不 同 服务 级 别 的 高 可 用 性 方案 ， 同 时 通过 虚拟 化 平台 周期 性 (或 按 需 ) 对 虚拟 机 进行 快照 备份 ， 在 发 生 故 障 时 了 予以 恢复 。 一 旦 某 个 虚拟 机 节点 失效 ， 可 
以 基于 其 最 新 的 备份 ， 并 通过 ViPR 的 数据 库 同步 和 协作 服务 来 恢复 其 功能 。 创 建 虚拟 机 备份 需要 遵循 以 下 原则 : 


o 为 所 有 控制 器 节点 创建 虚拟 机 备份 。 
. 每 次 成 功 的 软件 升级 后 创建 虚拟 机 备份 。 
“ 故障 发 生 后 ， 只 有 故障 节点 (而 非 所 有 节点 ) 需要 从 虚拟 机 备份 中 恢复 。 


另 一 方面 ， 控 制 器 通常 采用 集群 的 部 署 方 式 实现 高 可 用 性 保障 ， 并 采用 多 种 开源 的 集群 技术 。ViPR 采 用 了 Apache 的 Cassandra 来 存储 分 布 式 的 元 数据 和 配置 数据 。Cassandra 是 一 个 开源 的 分 布 式 数 据 
库 管理 系统 ， 能 够 管理 大 量 的 数据 、 工 作 流 和 任务 负载 。 此 外 ViPR 还 通过 ZooKeeper 作 为 分 布 式 服务 的 协调 和 监控 。ViPR 控 制 器 集群 的 高 可 用 性 保障 采用 的 是 一 种 多 活 的 解决 方案 。 


控制 器 集群 正常 工作 时 ， 控 制 器 内 部 的 负载 均衡 组 件 会 将 任务 分 发 到 所 有 节点 。 整 个 控制 器 集群 通过 一 个 公共 的 虚拟 IP 地 址 对 外 提供 服务 。ViPR 的 控制 器 集群 包含 奇数 个 节点 ， 只 要 同时 失效 的 节点 个 
数 不 超 过 半数 (任意 节点 ) ， 整 个 集群 仍然 能 够 正常 工作 。 举 例 来 说 ，3 个 节点 的 集群 只 能 容忍 单 节点 失效 ， 而 5 个 节点 的 集群 则 允许 最 多 两 个 节点 失效 。 具 体 的 节点 数 选择 取决 于 系统 的 服务 级 别 要 求 。 


8.4 ”软件 定义 之 路 一 一 网 络 的 高 可 用 性 


从 现代 数据 中 心 的 组 建 来 说 ， 网 络 的 核心 地 位 是 毋庸 置疑 的 ， 所 有 其 他 的 物理 基础 设施 都 必须 通过 网 络 互相 联系 ， 组 成 各 种 物理 上 或 逻辑 上 的 集群 系统 。 一 旦 网 络 的 可 用 性 出 现 问题 ， 很 多 基础 设施 都 
会 成 为 信息 孤岛 。 因 此 在 绝 大 多 数 生产 系统 中 ， 我 们 都 可 以 友 现 基于 匈 余 的 网 络 高 可 用 性 设计 。 然 而 目前 在 很 多 数据 中 心里 都 存在 过 度 元 余 ， 出 于 性 能 保证 、 信 息 隔离 、 安 全 等 多 方面 考虑 ， 通 常 需要 为 每 
个 应 用 系统 配置 独立 的 元 余 网 络 。 随 着 软件 定义 数据 中 心 ， 特 别 是 软件 定义 网 络 的 流行 ， 网 络 的 高 可 用 性 设计 也 有 了 全 新 的 思路 。 


软件 定义 网 络 致力 于 减少 数据 中 心 网 络 的 复杂 程度 ， 从 而 在 降低 管理 成 本 的 同时 提高 可 用 性 (复杂 系统 的 可 用 性 保障 更 困难 ) 。 然 而 软件 定义 网 络 仍然 需要 物理 网 络 基 础 设施 对 高 可 用 性 提供 最 低 的 保 
障 ， 通 常 表现 为 需要 两 个 互相 独立 的 对 等 网 络 (网 卡 、 网 线 、 交 换 机 等 ) ， 彼 此 之 间 互 为 元 余 。 因 此 从 理论 上 来 说 ， 由 于 软件 定义 网 络 在 逻辑 (或 虚拟 ) 层面 实现 了 网 络 隔离 与 定制 ， 软 件 定义 数据 中 心里 
只 需要 两 个 互 为 元 余 的 网 络 。 由 于 目前 软件 定义 网 络 的 发 展 与 应 用 尚 不 完善 ， 在 数据 中 心 的 网 络 规划 中 ， 仍 然 需要 按照 功能 划分 部 署 更 多 的 见 余 网 络 。 


首先 分 离 出 来 的 是 两 个 管理 网 络 ， 用 于 实施 管理 、 监 控 功 能 。 此 外 软件 定义 数据 中 心里 系统 组 件 之 间 的 管理 信息 交换 也 通过 这 个 网 络 进行 。 管 理 网 络 中 的 节点 对 网 络 地 址 (如 IP 地 址 ) 没有 特殊 要 求 ， 
通常 私有 网 段 (局 域 网 ) 就 可 以 满足 需求 ， 除 了 某 些 需要 对 外 提供 服务 的 门户 节点 。 管 理 网 络 的 通信 流量 通常 不 大 ， 对 带宽 的 要 求 不 高 。 如 果 将 管理 网 络 与 数据 网 络 混在 一 起 ， 则 人 存在 网 络 拥塞 导致 关键 的 
系统 管理 配置 操作 无 法 进行 。 


其 次 是 数据 网 络 ， 用 于 用 户 应 用 系统 内 的 通信 ， 相 对 于 管理 网 络 来 说 ， 对 带宽 、 延 时 等 网 络 参数 要 求 较 高 。 在 实际 的 数据 中 心里 ， 根 据 数据 类 型 的 不 同 通常 又 分 为 两 类 独立 的 网 络 : 租户 网 络 和 存储 网 
络 。 原 因 是 目前 的 软件 定义 网 络 还 没有 完全 实现 网 络 包 的 类 型 甄别 功能 ， 无 法 有 效 将 比较 关键 的 存储 流量 从 中 区 分 出 来 。 两 个 存储 网 络 用 于 对 各 类 存储 设备 的 访问 ， 包 括 块 存储 (ISCSI) 、 文 件 存 储 
(NFS/CIFS) 和 对 象 存储 (S3/Swift/Ceph 等 ) 。 与 管理 网 络 类 似 ， 人 存储 网 络 也 只 需要 私有 网 段 (局 域 网 ) ， 不 存在 对 外 提供 服务 的 需求 。 


数据 网 络 中 的 另 一 重要 类 型 则 是 租户 网 络 ， 又 称 应 用 网 络 ， 用 于 满足 某 个 应 用 系统 集群 内 部 的 通信 需求 ， 即 计算 节点 之 间 的 数据 通信 。 与 前 两 类 网 络 不 同 ， 租 户 网 络 的 需求 相对 复杂 ， 婚 需要 私有 网 络 
(局 域 网 ) ， 也 需要 提供 公有 网 络 的 连通 性 。 同 时 私有 网 络 的 节点 可 能 也 有 访问 外 部 网 络 的 需求 ， 需 要 网 关 或 地 址 翻译 (NAT) 提供 单 向 的 连通 性 。 此 外 由 于 网 络 内 的 数据 流量 来 自 不 同 的 租户 (及 其 中 的 
逻辑 应 用 集群 ) ， 租 户 网 络 对 性 能 隔离 、 安 全 隔离 等 网 络 特性 的 要 求 也 更 高 。 如 果 把 软件 定义 数据 中 心 作为 云 计算 平台 的 后 端 ， 无 论 是 公有 云 还 是 私有 云 ， 对 可 扩展 性 (AAR) 的 要 求 远 远 高 于 传统 的 数 
据 中 心 。 让 事情 变 得 更 复杂 的 是 ， 租 户 网 络 (特别 是 虚拟 网 络 ) 中 还 可 能 有 存储 流量 ,例如 用 户 应 用 从 虚拟 机 里 发 起 的 存储 访问 请 求 (特别 是 文件 与 对 象 存储 ) 。 


这 样 我 们 在 软件 定义 数据 中 心里 就 有 了 至 少 6 个 独立 的 网 络 ， 即 一 对 管理 (Management) 网 络 加 上 一 对 存储 (Storage) 网 络 ， 以 及 一 对 租户 (Tenant) 网 络 。 其 中 的 存储 网 络 和 租户 网 络 根据 实际 
的 带 完 性 能 等 要 求 ， 可 以 额外 扩充 。 在 这 个 基础 上 ， 我 们 再 逐一 展开 对 软件 定义 网 络 中 高 可 用 性 设计 的 各 种 技术 与 方案 的 介绍 。 


8.4.1 网 络 虚拟 化 


如 果 说 狭义 的 软件 定义 网 络 (Software-Defined Networking, SDN) 为 网 络 管理 提供 了 更 高 的 灵活 性 ， 网 络 虚 拟 化 (Network Virtualization, NV) 则 彻底 将 租户 网 络 (虚拟 网 络 ) 从 物理 网 络 基 
础 设施 中 解放 (Decouple) 了 出 来 。 虚 拟 网 络 (或 逻辑 网 络 ) 的 地 址 空间 (二 层 / 三 层 ) 完全 独立 于 底层 的 物理 网 络 ， 根 据 需要 简单 配置 就 可 以 实现 。 不 同 于 狭义 的 软件 定义 网 络 ， 网 络 虚 拟 化 是 一 种 端 到 
端 (End-to-End) 的 解决 方案 ， 其 实现 完全 独立 于 网 络 中 的 物理 网 络 设备 。 通 过 SDN 控 制 器 与 虚拟 交换 机 之 间 的 协作 ， 虚 拟 网 络 可 以 在 不 同 物理 网 络 间 自 由 地 动态 迁移 ， 也 可 以 对 其 进行 快照 与 恢复 操作 。 
关于 网 络 虚拟 化 的 详细 介绍 可 以 参见 前 面 的 章节 。 


目前 市 场 上 主流 的 软件 定义 网 络 产品 提供 了 对 网 络 虚 拟 化 技术 的 支持 ， 具 体 支 持 的 类 型 或 多 或 少 。 例 如 VMware/Nicira NVP 支 持 的 类 型 包括 VXLAN (如 图 8-11 所 示 ) 和 STT (如 图 8-12 所 示 ) ;微软 
Hyper-V/System Center 支 持 的 类 型 是 NVGRE; IBM DOVE 支 持 的 类 型 是 VXLAN (与 NVP 的 具体 实现 略 有 不 同 ) 。 网 络 虚 拟 化 使 得 租户 应 用 系统 直接 依赖 的 网 络 变 成 了 虚拟 网 络 ， 而 虚拟 网 络 的 一 个 重要 
特性 就 是 可 以 很 方便 地 在 不 同 的 物理 网 络 上 被 复制 、 镜 像 、 快 照 ， 从 而 提供 逻辑 层面 上 的 高 可 用 性 。 网 络 虚 拟 化 的 思路 是 基于 虚拟 交换 技术 ， 通 过 部 署 在 虚拟 化 主机 上 的 虚拟 交换 机 作为 网 络 分 界 ， 对 用 户 
数据 包 进 行 封 装 、 解 包 和 虚拟 路 由 。 软 件 定 义 网 络 的 高 可 用 性 设计 很 大 程度 上 是 基于 网 络 虚拟 化 技术 的 ， 包 括 下 文 将 将 提 到 的 逻辑 端口 镜像 等 。 
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图 8-12 ”网 络 虚 拟 化 : STT 


8.4.2 ”逻辑 应 口 镜像 


广义 的 软件 定义 网 络 支持 许多 虚拟 网 络 的 并 存 ( 云 规模 ) : 在 每 一 个 虚拟 网 络 中 ， 都 有 一 个 独立 的 逻辑 网 络 交换 机 以 及 与 之 匹配 的 许多 逻辑 网 络 端口 。 逻 辑 端口 主要 用 于 连接 租户 虚拟 机 的 网 卡 端口 ， 
此 外 也 用 于 连接 其 他 虚拟 网 络 或 外 部 物理 网 络 。 目 前 不 少 的 网 络 虚 拟 化 控制 器 产品 〈 例 如 NVP) 都 提供 了 一 种 称 为 端口 镜像 (Port Mirroring) 的 功能 ， 人 允许 复制 所 有 经 过 (进入 或 流出 ) 某 个 逻辑 端口 的 
数据 包 ， 并 将 其 转发 到 指定 的 网 络 端口 或 地 址 。 昌 然 在 设计 之 初 多 用 于 监控 和 故障 分 析 的 场合 ， 这 一 特性 也 可 以 被 用 于 软件 定义 网 络 的 高 可 用 性 保障 。 


对 于 软件 定义 中 心里 (虚拟 化 平台 上 ) 的 用 户 应 用 来 说 ， 虚 拟 机 之 间 的 网 络 数据 中 相当 一 部 分 是 通过 虚拟 交换 机 (或 软件 交换 机 ) 在 同一 个 物理 主机 内 部 流转 的 。 对 于 新 型 的 应 用 来 说 ， 传 统 的 网 络 管 
理工 具 很 难 抓 取 到 这 部 分 数据 并 提供 相应 的 端口 镜像 (或 转发 ) 支持 。 相 对 来 说 ， 基 于 软件 定义 网 络 的 管理 工具 就 可 以 解决 这 个 问题 : 


` 逻辑 端口 镜像 可 以 保证 所 有 抓 取 到 进出 虚拟 机 的 网 络 数据 包 。 
:即使 虚拟 机 正在 被 迁移 到 其 他 的 物理 主机 上 ， 逻 辑 端 口 镜 像 也 可 以 保证 工作 ， 即 使 目标 物理 主机 处 在 一 个 不 同 的 物理 网 络 上 也 没有 任何 问题 。 


` 逻辑 端口 镜像 可 以 以 完全 兼容 于 传统 的 物理 端口 镜像 的 方式 实现 ， 从 而 使 得 网 络 管理 工具 之 间 实 现 无 颖 衔接 。 


8.4.3 ”网 络 控制 器 集群 


在 实际 的 实现 中 ， 基 于 高 可 用 性 的 考虑 ， 软 件 定义 网 络 的 控制 器 通常 采用 集群 方式 实现 。 网 络 控制 器 集群 本 质 上 就 是 一 个 运行 在 多 台 服 务 器 上 的 分 布 式 系统 : 当 其 中 一 个 或 数 个 控制 器 节点 失效 是 ， 集 
群 仍然 能 够 正常 工作 ; 故障 节点 上 未 完成 的 任务 会 被 重新 分 发 到 正常 工作 的 节点 上 ; 同时 快速 检测 机 制 能 够 保证 迅速 友 现 问题 ， 并 启动 一 个 修复 过 程 来 恢复 或 替代 故障 节点 。 网 络 控制 器 集群 的 设计 通常 采 
用 多 活 (负载 均衡 ) 的 高 可 用 性 设计 ， 并 保证 良好 的 可 扩展 性 〈 云 规模 ) ， 以 满足 软件 定义 数据 中 心 与 云 计算 平台 的 需求 。 网 络 控制 器 集群 通过 以 下 一 些 机 制 提 供 高 可 用 性 保障 : 


* 持久 化 数据 分 布 在 多 个 控制 器 节点 上 ， 通 过 宛 余 机 制 (简单 副 本 、 纠 删 码 等 ) 避免 数据 丢失 。 
: 集群 中 的 控制 器 节点 之 间 通 过 心跳 机 制 互相 监视 ， 这 样 的 机 制 能 够 保证 一 旦 菜 个 节点 发 生 故 障 ， 与 之 关联 的 节点 就 能 迅速 做 出 反应 。 
:一 个 典型 的 集群 包含 至 少 三 个 节点 ， 并 采用 一 些 分 布 式 系统 技术 来 解决 可 能 发 生 的 决策 冲突 问题 。 


任何 多 节点 的 高 可 用 性 设计 都 会 不 可 避免 地 面临 同一 个 问题 一 一 决策 分 裂 (Split Brain) 。 这 种 情况 发 生 的 时 候 ， 一 个 集群 会 被 划分 为 两 个 (或 多 个 ) 子 群 ， 子 群 之 间 无 法 相 相互 通信 。 这 样 一 来 ， 其 


中 任何 一 个 子 群 都 可 能 认为 其 他 子 群 中 的 节点 都 已 经 发 生 故 障 ， 并 试图 获取 控制 权 。 突 破 这 种 困境 的 方法 有 很 多 ， 我 们 以 VMware/Nicira 的 NVP 为 例 ， 为 读者 简单 介绍 其 中 一 种 : 领袖 选举 (Leader 
Election) 。 系 统 正常 工作 时 ， 某 个 控制 器 节点 被 选 为 领袖 节点 ， 选 举 过 程 在 集群 的 所 有 节点 中 进行 。 注 意 这 里 的 领袖 节点 并 不 是 固定 的 ， 而 是 可 以 基于 每 个 任务 (或 角色 ) 选举 的 (相对 于 节点 粒度 来 
说 ) 。 选 举 机 制 可 以 参考 Apache 的 ZooKeeper 个 得 到 广泛 应 用 的 分 布 式 系统 工具 ， 这 里 就 不 展开 详细 介绍 了 。 选 举 出 来 的 领袖 节点 负责 将 任务 分 发 到 其 他 的 控制 器 节点 ， 并 监视 其 健康 状况 。 选 举 
通常 采用 多 数 机 制 ， 从 而 保证 不 会 有 两 个 (或 多 个 ) 节点 被 同时 选 为 领 出 ， 避 免 决策 分 裂 问题 。 因 此 ， 领 袖 选 举 机 制 工作 的 前 提 就 是 集群 中 多 于 一 半 的 节点 仍然 正常 工作 。 


844 网 关 服 务 的 高 可 用 性 


一 般 情况 下 ， 运 行 在 软件 定义 网 络 上 的 用 户 应 用 只 需要 虚拟 网 络 (逻辑 网 络 ) 内 部 的 连通 性 ， 然 而 也 有 一 些 虚 拟 机 同时 需要 访问 外 部 物理 网 络 。 软 件 定义 网 络 的 网 关 (Gateway) 提供 的 服务 就 是 连接 
软件 定义 数据 中 心 租 户 的 虚拟 网 络 和 数据 中 心 的 物理 网 络 。 网 关 通 常 就 是 一 个 部 署 了 网 关 服 务 (Gateway Service) 软件 的 服务 器 ， 有 多 块 物理 网 卡 以 连接 不 同 的 网 络 。 网 关内 部 通常 包含 一 个 虚拟 /软件 交 
换 机 (如 Open vSwitch) ,用 于 支持 网 络 数 据 包 的 封装 / 解 包工 作 。 来 自 虚拟 网 络 的 数据 包 传 递 到 物理 网 络 之 前 是 需要 进行 额外 封装 (Encapsulation， 如 VXLAN) 的 。 经 过 封装 的 数据 包 无 法 被 物理 网 络 
中 的 节点 直接 消费 ， 因 此 需要 网 关 先 对 其 进行 解 包 (De-Capsulation) 处 理 。 反 过 来 说 ， 从 物理 节点 发 出 的 数据 包 ， 也 需要 通过 网 关 进 行 封装 再 传递 给 租户 虚拟 网 络 中 的 虚拟 机 。 


网 关 服 务 通 常 有 两 种 类 型 ,分 别 服务 于 二 层 网 络 (L2) 和 三 层 网 络 (L3) 的 连通 性 。 租 户 虚 拟 网络 中 的 虚拟 机 连接 到 逻辑 交换 机 ， 逻 辑 交 换 机 连接 到 逻辑 路 由 器 ， 逻 辑 路 由 器 绑 定 到 某 个 网 天 服务 ， 网 
天 服务 包含 一 个 或 多 个 网 关节 点 。 如 果 某 个 网 关 服 务 配 置 了 多 个 网 关节 点 ， 这 些 网 关节 点 就 组 成 了 一 个 高 可 用 性 集群 ， 所 有 通过 这 个 网 天 服务 连接 外 部 网 络 的 租户 虚拟 机 就 拥有 了 具有 高 可 用 性 保障 的 物理 
网 络 连接 。 


网 关 服 务 提 供 的 高 可 用 性 可 以 是 单 活 (Active-Passive) 的 ， 也 可 以 是 多 活 (Active-Active) 的 。NVP 目 前 提供 的 就 是 基于 单 活 的 设计 ， 即 任何 时 候 数 据 都 只 可 能 通过 一 个 网 关节 点 ， 这 样 的 设计 是 为 
了 避免 网 络 包 的 循环 投递 。 活 跃 (Active) 网 关节 点 的 选择 通过 二 层 以 太 网 的 持续 故障 检测 (Continuous Fault Monitoring, CFM) 机 制 进行 ， 具 有 最 小 CFM 标识 (ID) 的 就 被 选 为 活跃 节点 ， 此 时 其 他 
所 有 了 网 关节 点 都 会 拒绝 任何 来 自 虚拟 网 络 的 包 转 发 请 求 。 当 活跃 节点 失效 时 ，CFM 检 测 会 迅速 发 现 故 障 并 重新 选择 活跃 节点 。 这 一 过 程 甚 至 不 需要 通过 网 络 控制 器 集群 ， 也 就 是 说 网 关 服 务 的 高 可 用 性 实际 
上 是 不 依赖 于 网 络 控 制 器 的 。 


(1) ZÆ (L2) 网 关 服务 的 高 可 用 性 


二 层 网 关 服 务 为 租户 虚拟 机 提供 与 外 部 网 络 之 间 的 二 层 ( 即 以 太 网 ) 的 连通 性 ， 即 使 虚拟 机 所 在 的 物理 主机 与 访问 目标 并 不 在 一 个 物理 二 层 网 络 中 。 二 层 网 关 服 务实 际 上 提供 了 一 种 二 层 网 络 拓展 机 
制 ， 允 许 软 件 定 义 数据 中 心里 甚至 跨 数据 中 心 的 任意 节点 被 连接 到 同一 个 二 层 网 络 中 。 


如 上 文 所 述 ， 对 于 每 一 个 二 层 网 关 服 务 来 说 ， 任 何 时 间 都 只 有 一 个 活跃 网 关节 点 。 网 关 服 务 把 来 自 虚拟 网 络 的 数据 包 转 发 给 活跃 网 关节 点 ;来 自 外 部 网 络 的 数据 包 则 由 活跃 网 关节 点 转发 给 服务 节点 。 
为 了 避免 网 络 包 循环 ， 其 他 的 网 关节 点 在 同一 时 间 都 处 于 禁用 状态 。 二 层 网 关 服 务 一 方面 要 负责 活跃 节点 失效 时 的 快速 领袖 选举 过 程 ， 另 一 方面 也 要 负责 检测 外 部 二 层 网 络 的 变化 ， 例 如 检测 多 个 广播 域 的 
合并 或 者 当前 广播 域 的 重新 划分 等 。 


(2) 三 层 (L3) 网 关 服 务 的 高 可 用 性 


三 层 网 关 服 务 为 租户 虚拟 机 提供 与 外 部 网 络 之 间 的 三 层 ( 即 IP 层 ) 的 连通 性 。 这 样 的 连通 性 通常 是 由 网 络 地 址 翻译 (Network Address Translation, NAT) 机 制 实 现 。 相 对 于 二 层 网 络 服务 来 说 ， 三 
层 网 关节 点 所 在 的 物理 主机 与 访问 目标 只 需要 三 层 的 连通 性 ， 并 不 要 求 在 一 个 二 层 或 三 层 广播 域 中 。 在 软件 定义 数据 中 心里 ， 三 层 网 关 服 务 相对 来 说 有 着 更 好 的 普 适 性 。 那 么 在 三 层 网 关 服 务 的 高 可 用 性 设 
计 中 ， 故 障 检测 和 快速 恢复 如 何 工作 呢 ? 


与 二 层 网 关 服 务 稍 有 不 同 ， 三 层 网 关 服 务 为 每 个 连接 的 逻辑 路 由 器 配置 一 对 网 关节 点 : E (Primary) 网 关 与 副 (Secondary) 网 关 。 主 网 关 负 责 为 所 有 来 自 租户 虚拟 机 的 网 络 数据 包 提供 地 址 翻译 和 路 
由 服务 ， 同 时 也 要 对 副 网 关上 的 路 由 信息 以 及 地 址 翻译 信息 保持 同步 更 新 。 对 于 不 同 的 逻辑 路 由 器 来 说 ， 其 主 网 关 被 分 配 到 不 同 的 网 关节 点 上 ， 从 而 实现 负载 均衡 的 目的 。NVP 这 一 设计 的 独特 之 处 在 于 巧 
妙 结合 了 单 活 (单一 逻辑 路 由 器 ) 与 多 活 (全 系统 ) 的 高 可 用 性 设计 思路 。 


以 NVP 的 三 层 网 关 服 务 为 例 ， 其 网 关节 点 的 故障 切换 是 基于 虚拟 机 交换 机 ( 即 Open vSwitch) 的 高 可 用 性 设计 。 具 体 来 说 ， 一 个 Open vSwitch 高 可 用 性 守护 进程 (High Availability 
Daemon, HAD) 被 部 署 在 所 有 的 NVP 网 关节 点 。 当 守护 进程 检测 到 主 网 关 故 障 时 ， 会 将 其 标识 为 失效 节点 ， 然 后 副 网 关 会 接手 所 有 主 网 关 负 责 的 逻辑 路 由 器 ， 并 负责 处 理 所 有 后 续 的 网 络 流量 。 由 于 副 网 
关上 有 同步 更 新 的 路 由 信息 与 地 址 翻译 信息 ， 故 障 切 换 过 程 对 于 后 续 的 数据 包 处 理 来 说 是 完全 透明 的 。 


85 ”软件 定义 数据 中 心 的 高 可 用 性 


前 面 几 节 中 ， 我 们 为 读者 逐一 介绍 了 SDC、SDS 与 SDN 中 的 高 可 用 性 设计 。 在 这 一 节 中 ， 将 讨论 如 何 通 过 对 这 些 局 部 方案 的 有 机 整合 ， 实 现 软 件 定义 数据 中 心中 高 可 用 性 保障 的 一 体 化 解决 方案 。 一 个 
重要 的 目标 就 是 要 提供 基于 租户 粒度 (Per-Tenant) 的 、 为 每 个 用 户 应 用 程序 /系统 单独 服务 的 高 可 用 性 方案 。 在 这 里 高 可 用 性 方案 要 保护 的 对 象 是 某 个 用 户 应 用 所 依赖 的 虚拟 基础 设施 ， 包 括 虚 拟 机 、 虚 
拟 存 储 以 及 将 其 连接 在 一 起 的 虚拟 网 络 等 。 


8.5.1 整合 的 解决 方案 


作为 新 方向 ， 目 前 来 说 还 没有 一 个 很 完整 的 针对 整个 软件 定义 数据 中 心 的 高 可 用 性 产品 或 解决 方案 ， 业 界 对 这 一 领域 的 探索 也 刚刚 开始 。 在 这 一 小 节 中 ， 我 们 首先 为 读者 描述 一 些 总 体 设 计 理 念 。 水 平 
所 限 ， 内 容 本 身 并 没有 很 完整 的 系统 性 ， 只 是 希望 借 此 与 读者 分 享 一 下 设计 蓝图 和 愿景 ， 希 望 能 够 起 到 抛砖引玉 的 作用 。 为 了 简化 起 见 ， 我 们 暂 不 考虑 跨 数 据 中 心 (或 地 理 距离 ) 的 高 可 用 性 方案 ， 相 关内 


容 将 在 后 续 小 节 中 介绍 。 


在 软件 定义 数据 中 心里 ， 每 一 个 租户 应 用 系统 都 运行 在 一 个 独立 的 虚拟 基础 设施 上 。 高 可 用 性 正如 其 他 一 些 功能 特性 (如 压缩 、 去 重 、 镜 像 ) 一 样 ， 作 为 服务 (Service) 的 形式 提供 给 租户 。 租 户 可 以 
自由 选择 是 否 需要 以 及 需要 何 种 类 型 何 种 级 别 的 高 可 用 性 服务 。 高 可 用 性 服务 作为 一 项 虚拟 应 用 (或 配置 ) ， 可 以 动态 部 署 并 关联 到 租户 的 虚拟 基础 设施 。 最 终 的 目标 是 通过 保护 虚拟 基础 设施 ， 从 而 保护 
运行 中 的 租户 应 用 程序 。 


作为 虚拟 基础 设施 中 的 计算 组 件 ， 得 益 于 计算 虚拟 化 (软件 定义 技术 ) 十 余年 来 的 鞍 勃 发 展 ， 虚 拟 机 本 身 的 高 可 用 性 保护 技术 (以 VMware HA 与 FT 为 代表 ) 发 展 已 经 相当 成 熟 ， 同 时 针对 虚拟 机 集群 
(分 布 式 应 用 ) 的 保护 技术 也 有 着 不 错 的 进展 。 


处 于 枢纽 地 位 的 网 络 组 件 (连接 其 他 组 件 ) ， 随 着 这 两 年 软件 定义 网 络 与 网 络 虚 拟 化 技术 的 大 热 ， 在 业界 也 已 经 有 一 些 相对 成 熟 并 持续 改进 的 产品 ， 例 如 VMware/Nicira NVP, Cisco ONE 
Controller 等 。 这 些 产品 提供 的 技术 可 以 将 虚拟 网 络 从 物理 网 络 中 完全 解放 出 来 ， 而 且 与 虚拟 机 〈 计 算 虚 拟 化 ) 已 经 有 着 很 好 的 整合 与 衔接 。 虚 拟 网 络 的 拓扑 与 配置 管理 非常 灵活 ， 可 以 很 方便 地 进行 复制 
或 动态 迁移 。 而 且 网 络 虚 拟 化 也 提供 了 跨 数据 中 心 (地 理 距 离 ) 的 连接 能 力 (基于 三 层 网 络 的 二 层 履 盖 网 络 ) 。 


最 后 负责 用 户 数据 持久 化 的 存储 组 件 ， 特 别 是 软件 定义 存储 的 发 展 相 对 较 晚 ， 目 前 的 技术 与 产品 普遍 都 不 是 很 成 熟 。 市 场 上 多 数 存 储 产品 对 多 租户 模式 (Multi-Tenancy) 的 支持 尚 不 完整 ， 而 这 一 点 
对 于 软件 定义 数据 中 心 与 云 计算 平 台 是 至 关 重 要 的 。 此 外 存储 产品 基本 上 也 不 支持 软件 定义 网 络 (网 络 虚拟 化 ) 的 接 入 ， 与 软件 定义 数据 中 心里 其 他 组 件 的 互 操作 不 足 。 目 前 面世 的 一 些 软 件 定义 存储 产 
品 ， 其 路 线 图 与 愿景 也 都 还 不 是 很 完整 。 好 消息 是 目前 主流 的 存储 提供 商 非 常 重 视 这 一 块 发 展 ， 我 们 期 望 在 不 久 的 将 来 会 有 更 多 的 功能 特性 (例如 EMC ViPR 愿 景 中 的 高 可 用 性 即 服务 (HA as a 
Service) ) 可 以 支持 更 灵活 更 具 扩展 性 的 高 可 用 性 保障 方案 。 


只 有 这 些 孤 立 的 组 件 并 不 足以 组 成 完整 的 高 可 用 性 解决 方案 ， 特 别 是 对 复杂 的 分 布 式 应 用 来 说 。 我 们 需要 一 个 更 高 层次 的 管理 软件 栈 来 负责 协调 所 有 的 组 件 ， 即 需要 一 个 支持 动态 部 署 的 高 可 用 性 服务 
实例 ， 来 负责 每 一 个 租户 虚拟 基础 设施 的 保障 工作 。 这 个 高 可 用 性 服务 实例 由 软件 定义 中 心 的 中 央 管 理 器 按 需 部 署 并 负责 管理 ， 负 责 与 每 一 个 组 件 对 应 的 控制 器 协同 工作 ， 使 其 按照 期 望 的 工作 流程 执行 任 
务 ， 从 而 保证 互相 之 间 的 状态 一 致 性 。 这 些 组 件 控制 器 包括 软件 定义 计算 的 控制 器 (如 VMware vCenter) 、 软 件 定义 网 络 的 控制 器 (如 NVP) 、 软 件 定义 存储 的 控制 器 (如 ViPR) 以 及 流程 控制 与 自动 化 
模块 的 控制 器 等 。 


8.5.2 ”持续 可 用 性 


寺 续 可 用 性 (Continuous Availability, CA) 指 的 是 将 高 可 用 性 与 灾难 恢复 (Disaster Recovery, DR) 整合 在 一 起 的 解决 方案 ， 旨 在 为 用 户 的 关键 服务 或 应 用 提供 高 标准 的 24x 7 的 跨 数据 中 心 (地理 
距离 ) 的 高 可 用 性 保障 。 在 持续 高 可 用 性 的 保障 模式 下 ， 所 有 来 自 应 用 程序 的 操作 都 必须 人 在 两 个 异地 节点 上 同步 执行 。 持 续 可 用 性 模型 的 基本 要 求 就 是 在 地 理 上 分 开 的 两 个 节点 上 ， 保 证 两 个 完全 一 致 的 应 
用 实例 并 发 运行 。 这 要 求 在 两 个 分 布 式 的 节点 上 提供 一 个 高 效 的 同步 机 制 ， 而 且 需 要 相对 较 低 的 网 络 延 时 (以 VPLEX 为 例 必须 不 超过 5ms) 。 软 件 定 义 数据 中 心 完 整 的 持续 可 用 性 方案 基于 EMC VPLEX 
Metro (保护 存储 ) , VMware FT 或 VMware HA (保护 虚拟 机 ) 以 及 NVP 软 件 定义 网 络 平台 (保护 虚拟 网 络 ) ， 如 图 8-13 所 示 。 
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为 了 提供 透明 的 故障 恢复 机 制 ， 异 地 节点 之 间 首 先 需要 完全 同步 的 数据 共享 存储 。VPLEX Metro 通 过 与 vSphere 的 协同 工作 ， 很 好 地 满足 了 这 个 需求 ， 在 最 长 可 达 100 公 里 的 距离 内 ， 人 允许 用 户 在 两 个 
异地 节点 同时 进行 存储 读 写 操作 。VPLEX 提 供 的 分 布 式 全 局 缓存 技术 能 够 很 好 地 为 存储 层面 的 高 可 用 性 提供 保障 。 这 种 保障 是 基于 双 活 模式 的 ， 同 时 提供 了 负载 均衡 的 能 力 。 


其 次 要 考虑 的 是 针对 计算 层面 的 保护 ， 在 软件 定义 数据 中 心 的 场景 中 也 就 是 针对 虚拟 机 的 保护 。VMware FT 能 够 很 好 地 满足 这 个 需求 ， 通 过 将 主 虚拟 机 与 影子 虚拟 机 分 别 部 署 在 主 节点 和 灾 备 节点 上 ， 
提供 无 停机 时 间 的 高 可 用 性 保证 。 如 果 用 户 希望 降低 成 本 ， 并 可 以 接受 一 定 范 围 内 系统 停机 恢复 ， 则 也 可 用 VMware HA 替代 VMware FT, 


寺 续 可 用 性 架构 的 最 后 一 块 需要 考虑 针对 网 络 层面 的 保护 。 在 传统 的 持续 可 用 性 部 署 中 ， 需 要 保证 两 个 节点 部 署 完全 一 样 的 物理 网 络 基础 设施 以 及 共同 的 IP 地 址 分 配 ， 使 得 完全 一 样 的 应 用 实例 可 以 在 
两 个 节点 无 颖 运行 。 在 软件 定义 数据 中 心 ， 这 一 点 约束 可 以 通过 软件 定义 网 络 解除 。 这 里 我 们 可 以 在 两 个 节点 部 署 NVP， 通 过 网 络 虚拟 化 提供 完全 一 致 的 虚拟 网 络 配置 ， 同 时 可 以 将 两 个 节点 的 NVP 通 过 
MDI (Multi-Domain Interconnect) 机 制 连接 在 一 起 。 以 VXLAN 与 STT 为 代表 的 网 络 虚拟 化 技术 提供 了 基于 三 层 网 络 的 二 层 网 络 覆 六 技术 ( 即 L2over L3， 也 就 是 Network Virtualization Overlay for 
Layer 3, nvo3) ， 可 以 基于 Internet 的 IP 层 提供 经 过 封装 的 虚拟 二 层 网 络 。 此 外 如 果 应 用 需要 外 部 网 络 (如 Internet) 的 访问 ， 可 以 为 其 配置 NVP 的 三 层 网 络 (L3) 网 关 服 务 ， 并 为 两 个 节点 的 网 关 配 置 高 
可 用 性 服务 ， 满 足 一 致 的 网 络 访问 性 。 


8.5.3 “分布 式 快 速 数 据 恢复 


SnapSure) 到 网 络 保护 (如 EMC NVP) ， 再 到 计算 保护 (如 VMware Snapshot, HA, Replication) 的 各 个 层面 的 数据 保护 技术 。 这 些 技术 有 着 一 个 共同 特点 ， 就 是 它们 只 负责 保护 用 户 应 用 程序 的 一 部 
分 状态 。 而 实际 上 用 户 需要 的 是 一 个 全 面 的 提供 保障 一 致 性 的 运行 状态 保护 方案 ， 能 够 为 任何 (分 布 式 ) 应 用 程序 所 依赖 的 基础 设施 (计算 、 存 储 、 网 络 等 ) 创建 一 致 的 运行 状态 快照 。 无 论 发 生 任 何故 
障 ， 都 可 以 保证 从 最 近 的 一 致 性 状态 快速 恢复 并 继续 执行 。 恢 复 过 程 可 以 在 任何 时 间 、 任 何 地 点 进行 ， 对 运行 中 的 应 用 来 说 应 该 是 完全 透明 的 。 


把 传统 的 数据 保护 技术 整合 起 来 并 不 是 一 件 容 易 的 事 ， 对 于 运行 在 传统 数据 中 心 分 布 式 快速 数据 恢复 如 图 8-14 所 示 。 物 理 基 础 设施 上 的 应 用 来 说 尤其 如 此 。 随 着 虚拟 化 技术 的 造 勃 发 展 以 及 软件 定义 数 
据 中 心 的 兴起 ， 实 现 一 种 面向 运行 在 软件 定义 数据 中 心里 的 任何 应 用 的 、 具 有 很 大 灵活 性 的 应 用 程序 运行 状态 保护 机 制 ， 已 经 越 来 越 有 可 行 性 了 。 这 里 描述 的 解决 方案 针对 应 用 所 依赖 的 虚拟 基础 设施 ， 包 
括 计 算 组 件 (虚拟 机 ) 、 人 存储 组 件 (逻辑 卷 或 文件 共享 目录 ) 以 及 网 络 组 件 (虚拟 网 络 ) ， 虚 拟 存 储 被 关联 到 虚拟 计算 ， 并 由 虚拟 网 络 提供 数据 连接 。 全 面 的 应 用 状态 保护 方案 基于 三 项 核心 技术 : 
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图 8-14 分布 式 快速 数据 恢复 : RecoverPoint+vSphere+NVP 


1. 虚 拟 机 (SERE) 快照 


虚拟 化 计算 组 件 通过 虚拟 化 平台 提供 的 虚拟 机 (REF) 快照 技术 保护 。 虚 拟 机 (REF) 快照 技术 对 集群 中 所 有 的 虚拟 机 予以 状态 保护 ， 同 时 保护 集群 中 的 网 络 通信 。 该 技术 由 EM(C 研 发 并 已 被 VMware 
采用 ， 即 将 在 下 一 代 虚 拟 化 产品 中 发 布 。 目 前 方案 的 局 限 性 在 于 只 支持 在 本 地 (同一 物理 设施 ) 恢复 应 用 运行 状态 ， 基 于 两 个 原因 : 没有 人 存储 数据 复制 技术 ;与 物理 网 络 紧密 耦合 。 


2. 持 续 数 据 保护 (存储 复制 |) 


EMC RecoverPoint 提 供 持续 数据 保护 (Continuous Data Protection, CDP) ， 支 持 通过 同步 /异步 模式 的 复制 保护 块 存储 。 对 于 写 入 块 存储 的 数据 ，CDP 记 录 数 据 变化 并 写 入 日 志 。CDP 日 志 记 录 
每 一 次 单独 的 写 操作 ， 相 当 于 每 次 写 操作 后 产生 一 个 检查 点 。 故 障 发 生 时 ，CDP 日 志 机 制 允许 将 存储 数据 恢复 到 任 一 检查 点 。 


3. 软 件 定义 网 络 与 网 络 虚 拟 化 


VMware/Nicira 的 NVP 提 供 了 一 个 灵活 强大 的 软件 定义 网 络 管理 平台 。 网 络 虚 拟 化 技术 (VXLAN/STT) 使 得 租户 网 络 从 物理 基础 设施 中 完全 解放 出 来 ， 使 得 应 用 程序 所 依赖 的 网 络 可 以 自由 迁移 。 软 
件 定 义 网 络 技术 提供 了 更 灵活 的 网 络 管理 、 配 置 与 迁移 功能 ， 只 要 通过 对 虚拟 网 络 边界 (Network Virtualization Edge, NVE) 的 简单 配置 ， 就 可 以 支持 虚拟 网 络 拓扑 的 异地 恢复 。 


与 传统 的 解决 方案 相 比 ， 这 个 基于 软件 定义 数据 中 心 的 方案 至 少 有 三 大 优势 : 1) 支持 全 面 的 应 用 程序 运行 状态 保护 ， 涵 盖 了 从 计算 、 网 络 到 存储 的 所 有 虚拟 基础 设施 ; 2) 适用 于 任何 分 布 式 (或 单 
机 ) 应 用 程序 ， 保 护 与 恢复 过 程 全 自动 化 进行 ， 并 对 应 用 程序 完全 透明 ; 3) 允许 任何 时 间 在 任何 地 点 启动 恢复 过 程 。 


8.6 ”典型 实现 

这 一 节 中 ， 我 们 以 软件 定义 数据 中 心 的 两 个 解决 方案 为 例 ， 来 看 看 其 中 的 高 可 用 性 设计 是 如 何 考虑 的 。 这 两 个 方案 分 别 是 VMware 软件 定义 数据 中 心 和 Openstack 云 计算 平台 。 
8.6.1 VMware SDDC 的 高 可 用 性 

软件 定义 数据 中 心 的 宗旨 就 是 要 使 IT 服务 的 发 布 管理 具有 更 高 的 灵活 性 、 更 低 的 费用 以 及 更 强 的 可 靠 性 。 就 可 靠 性 这 个 目标 而 言 ，SDDC 就 是 要 为 所 有 类 型 的 用 户 应 用 程序 提供 全 新 的 自动 化 基础 设施 服 
务 ， 即 高 可 用 性 (Availability) 与 业务 持续 性 (Business Continuity) 的 有 效 保 障 。 


针对 高 可 用 性 与 业务 持续 性 的 传统 解决 方案 已 经 有 不 少 ,但 是 不 管 是 从 软 硬 件 采购 的 角度 ， 还 是 后 期 运行 维护 的 角度 来 说 ， 它 们 的 一 个 共同 特点 就 是 既 复杂 又 昂贵 。 此 外 正如 我 们 在 前 面 提 到 过 的 ， 这 
些 传统 方案 通常 对 用 户 应 用 程序 有 着 很 高 的 要 求 ， 因 此 无 形 之 中 会 将 许多 用 户 需求 拒 之 门 外 。 


VMware 的 vCloud Suite 发 布 于 2012 年 的 VMworld 全 球技 术 大 会 ， 提 供 了 涵盖 软件 定义 数据 中 心 与 云 计 算 平台 的 一 体 化 解决 方案 。vCloud Suite 为 用 户 关键 应 用 提供 了 一 系列 用 于 保障 高 可 用 性 的 产 
品 、 功 能 与 方案 。 这 些 产 品 中 首先 包括 了 前 文 提 到 的 vSphere HA and VMware FT， 当 发 生 本 地 基础 设施 故障 时 为 用 户 应 用 提供 自动 化 的 高 可 用 性 保障 (详情 参见 8.2 节 ) ; 此 外 还 包括 了 vSphere Data 
Protection (VDP) 和 vSphere Replication (VR) ， 用 于 提供 备份 与 复制 等 数据 保护 机 制 ; 最 后 组 件 中 还 提供 了 vCenter Site Recovery Manager (SRM) ， 用 于 协调 故障 发 生 后 整个 灾难 恢复 过 程 。 


相对 于 传统 灾难 恢复 (Disaster Recovery, DR) 方案 的 高 (技术 /成 本 ) 门槛 ，vCloud 组 件 提供 了 一 整套 产品 ， 则 在 提供 低 成 本 、 高 可 靠 性 以 及 灾难 恢复 全 自动 化 的 解决 方案 。 全 新 的 解决 方案 针对 的 
是 软件 定义 数据 中 心 与 虚拟 化 数据 中 心 ， 是 软件 定义 数据 中 心里 高 可 用 性 保障 的 一 个 重要 组 成 部 分 。VMware 的 方案 主要 包含 两 方面 的 技术 : 数据 复制 与 灾难 恢复 自动 化 。 


1. 数 据 复制 技术 一 一 vSphere Replication 


数据 复制 技术 是 灾难 恢复 的 重要 基石 ， 用 于 避免 数据 丢失 。 保 证 主 节点 发 生 故 障 时 ， 灾 备 节点 能 够 找到 数据 的 副本 。 传 统 的 数据 复制 技术 (例如 VNX Replication) 提供 的 是 基于 存储 阵列 (array- 
based) 的 方案 ,通常 由 存储 厂商 提供 。 相 对 于 传统 方案 存储 产品 的 紧密 厢 合 (EMC RecoverPoint 是 个 例外 ) , vSphere Replication 是 业界 首 个 基于 虚拟 化 平台 的 数据 复制 产品 ， 其 独立 于 后 端的 存储 产 
品 ， 具 有 更 好 的 普 适 性 。 作 为 软件 定义 数据 中 心 的 有 机 组 成 部 分 ，vSphere Replication 是 一 个 纯 软件 实现 的 应 用 ， 人 允许 进行 虚拟 机 粒度 (VM-based) 的 数据 复制 。 作 为 VMware 软件 定义 数据 中 心里 提供 
高 可 用 性 保障 的 一 项 关键 技术 ，vSphere Replication 提 供 了 以 下 一 些 重要 的 功能 与 特性 : 


“ 从 物理 存储 基础 设施 抽象 出 来 的 纯 软 件 解决 方案 ， 为 虚拟 机 的 数据 保护 提供 了 最 大 程度 的 灵活 性 (硬件 无 关 ) ， 虚 拟 机 的 数据 保护 可 以 跨 存 储 厂商 、 跨 不 同类 型 存储 (如 FC SAN 和 NFS) 、 跨 地 理 位 


置 (Location) 。 
- 提供 基于 虚拟 机 粒度 (相对 于 LUN 粒 度 ) 的 数据 复制 技术 ， 意 味 着 保存 在 同一 LUN (Datastore) 上 的 虚拟 磁盘 (VMDK) 不 再 需要 被 捆绑 在 一 起 。 


基于 存储 阵列 的 数据 复制 技术 显然 无 法 满足 这 些 需求 。 当 然 在 相当 长 的 一 段 时 间 内 ， 传 统 技术 在 软件 定义 数据 中 心里 仍然 会 占据 一 席 之 地 ， 特 别 是 服务 于 一 些 遗 留 的 关键 应 用 。 此 外 我 们 也 应 该 认识 
到 ， 一 些 传统 产品 自身 也 在 不 断 进化 发 展 ， 以 更 好 地 融入 软件 定义 数据 中 心 。 例 如 EMC RecoverPoint 本 身 也 有 着 跨 存 储 平台 的 灵活 性 。 更 值得 一 提 的 是 ， 正 在 开发 中 的 专 为 虚拟 化 设计 的 RP/VE (Virtual 
Environment) 版 本 对 虚拟 化 平台 与 软件 定义 数据 中 心 有 着 更 好 的 支持 ， 可 以 作为 vSphere Replication 之 外 一 个 不 错 的 选项 。 


2. 灾 难 恢复 自动 化 一 一 vCenter SRM 


完整 的 灾难 恢复 方案 中 ， 完 成 数据 复制 仅仅 是 走 完 了 第 一 步 (保证 无 数据 丢失 ) ， 更 重要 的 是 灾难 发 生 后 ， 如 何 协调 主 节点 与 灾 备 节点 ， 以 自动 化 的 方式 协调 整个 数据 与 应 用 恢复 过 程 。 这 个 复杂 的 恢 
过 程 包括 以 何 种 顺序 在 灾 备 节 点 启动 关键 的 服务 与 应 用 程序 以 保证 依赖 性 ， 如 何 配 置 虚拟 机 的 IP 地 址 以 保证 网 络 持续 性 等 。vCenter SRM 正 是 一 个 通过 协同 整合 所 有 组 件 、 完 成 灾难 恢复 的 自动 化 解决 方 
。SRM 通 过 与 前 面 提 到 的 各 种 用 于 数据 复制 的 产品 的 协作 来 完成 数据 的 恢复 。 同 时 SRM 还 提供 了 模拟 测试 的 功能 ， 用 以 验证 方案 的 有 效 性 。SRM 可 以 模拟 一 个 故障 发 生 的 事件 ， 并 在 不 干扰 主 节点 用 户 应 
用 正常 运行 的 前 提 下 ， 通 过 灾 备 节点 完成 灾难 恢复 的 整个 过 程 测试 。 


复 
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8.6.2 ”OpenStack 的 高 可 用 性 设计 


对 于 主要 的 基础 设施 组 件 服务 (如 Nova、Keystone 等 ) ，OpenStack 号 称 能 够 保证 达到 99.99% 的 高 可 用 性 ,俗称 “四 个 九 ”。 然 而 对 于 运行 在 云 计 算 平台 上 的 用 户 实例 (虚拟 机 ) ，Openstack 并 不 
提供 直接 的 高 可 用 性 保障 。 对 于 OpenStack 的 高 可 用 性 机 制 来 说 ， 如 何 避 免 单 点 故障 首先 要 区 分 一 个 服务 是 状态 相关 (Stateful) 还 是 状态 无 关 (Stateless) 的 。 


1. 状 态 相关 (Stateful) vs. 状 态 无 关 (Stateless) 服务 


状态 无 关 的 服务 提供 一 问 一 答 的 请 求 模式 ， 且 服务 请 求 之 间 互 不 关联 。 为 状态 无 关 服 务 提供 高 可 用 性 设计 比较 简单 ， 只 需要 提供 元 余 实 例 以 及 相应 的 负载 均衡 机 制 。 实 例 之 间 通 常 采 用 多 活 (Active- 
Active) 模式 : 请 求 通过 虚拟 地 址 (Virtual IP) 和 HAProxy 进 行 负 载 均衡 。OpenStack 中 状态 无 关 的 组 件 服务 包括 nova-api、nova-conductor、glance-api、keystone-api、neutron-api 和 nova- 


scheduler 等 。 


状态 相关 的 服务 提供 系列 问答 的 请 求 模式 ， 下 一 个 请 求 (类 型 /内 容 ) 依赖 于 上 一 次 请 求 的 结果 。 这 一 类 型 服务 更 难 管理 ， 因 为 一 个 用 户 动作 通常 对 应 了 一 系列 请 求 ， 因 此 元 余 实 例 与 负载 均衡 并 不 能 解 
决 高 可 用 性 的 问题 。Openstack 中 状态 相关 的 组 件 服务 ， 典 型 的 例子 是 各 个 组 件 的 数据 库 (MySQL) 以 及 消息 队列 (RabbitMQ) 。 状 态 相关 服务 的 高 可 用 性 设计 首先 取决 于 用 户 需要 单 活 还 是 多 活 的 配 
置 。 


2. 单 活 (Active-Passive) 模式 


在 单 活 模式 的 高 可 用 性 系统 中 ， 当 故障 发 生 时 ， 系 统 会 将 备用 组 件 上 线 用 来 著 代 故障 组 件 。 举 例 来 说 ，Openstack 会 在 主 数据 库 之 外 ， 同 时 维护 一 个 灾难 恢复 (Disaster Recovery) 数据 库 。 这 样 当主 
数据 库 失效 时 ， 备 用 的 数据 库 就 可 以 快速 上 线 运 行 。OpenStack 针 对 状态 相关 服务 的 单 活 模 式 的 高 可 用 性 设计 ， 通 常 需要 部 署 一 个 额外 的 应 用 例如 Pacemaker 或 Corosync 来 监视 组 件 服务 ， 并 负责 故障 发 
生 时 将 备用 组 件 上 线 。 


Openstack 推 荐 的 高 可 用 性 部 署 依赖 于 Pacemaker 这 样 的 集群 管理 软件 栈 。 配 置 Openstack 组 件 服务 的 时 候 ， 包 括 网 络 组 件 (Neutron DHCP Agent、L3Agent 和 Metadata Agent) ， 都 需要 加 入 
到 Pacemaker 集 群 中 。Pacemaker 是 Linux 平 台 上 的 一 个 高 可 用 性 和 负载 均衡 软件 ， 广 泛 适 用 于 各 种 不 同 的 存储 和 应 用 程序 。 而 Pacemaker 依 赖 于 Corosync 的 消息 层 提供 可 靠 的 集群 通信 ， 包 括 基于 
Totem 环 状 结构 的 排序 协议 以 及 基于 UDP 的 消息 队列 、 选 举 和 集群 成 员 管理 机 制 等 。Pacemaker 通 过 资源 代理 (Resource Agent, RA) 与 被 管理 的 应 用 程序 之 间 进 行 通信 ， 目 前 原生 支持 70 多 种 资源 代 
理 ， 并 提供 了 良好 的 可 扩展 性 ， 支 持 很 方便 地 接 入 第 三 方 资源 代理 。Openstack 的 高 可 用 性 配置 一 部 分 基于 原始 的 Pacemaker 资 源 代 理 (例如 针对 MySQL 数 据 库 和 虚拟 IP 地 址 ) ， 一 部 分 基于 其 他 第 三 方 
的 资源 代理 (例如 针对 RabbitMQ) ， 还 有 一 些 为 OpenStack 开 发 的 原生 资源 代理 (例如 针对 Keystone 和 Glance) 。 


除 此 之 外 ， 对 于 包括 数据 库 (MySQL) 和 消息 队列 (RabbitMQ) 在 内 的 一 些 核心 组 件 ， 高 可 用 性 的 元 余 实 例 之 间 需 要 一 种 基于 数据 复制 机 制 的 分 布 式 块 存储 设备 支持 。EMC 的 RecoverPoint 产 品 就 
是 一 个 很 好 的 选择 ， 基 于 高 度 可 靠 的 持续 数据 复制 (Continuous Data Replication) 机 制 ， 支 持 在 多 达 五 个 节点 之 间 同 时 进行 数据 复制 。 此 外 DRBD (Distributed Replicated Block Device) ， 一 个 
Linux 平 台 上 的 分 布 式 存储 系统 ， 也 是 不 错 的 选择 。DRBD 提 供 了 基于 软件 实现 的 、 无 共享 的 、 基 于 复制 的 块 存储 (如 图 8-15 所 示 ) ， 经 常 被 用 于 高 可 用 性 集群 的 设计 。DRBD 提 供 了 基于 网 络 的 类 似 于 
RAID-1 的 数据 复制 机 制 |。 
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图 8-15 ”基于 复制 的 分 布 式 块 存储 (DRBD) 


3. 多 活 (Active-Active) 模式 


在 双 活 或 多 活 模 式 的 高 可 用 性 系统 中 ， 所 有 的 组 件 服务 实例 都 同时 上 线 ， 并 发 地 对 外 提供 服务 。 这 样 一 来 ， 某 个 实例 的 失效 只 会 造成 轻微 的 性 能 下 降 ， 而 不 会 导致 系统 停机 或 数据 丢失 。 概 括 来 说 ， 针 
对 状态 相关 服务 的 基于 多 活 模式 的 高 可 用 性 设计 ， 需 要 在 匈 余 实例 之 间 时 刻 保持 一 致 状态 。 比 如 通过 一 个 见 余 实例 对 数据 库 的 更 新 ， 能 够 立刻 同步 到 其 他 实例 。 多 活 模式 的 设计 通常 还 包括 一 个 负载 均衡 管 
理 器 ,保证 将 新 来 的 任务 分 配 到 相对 空 闪 的 服务 实例 上 。 至 于 如 何 实现 上 述 目 标 ， 不 同 的 系统 就 要 “八仙 过 海 ， 各 显 神 通 ” 了。OpenStack 的 高 可 用 性 指导 文档 描述 了 通常 需要 考虑 的 问题 ， 并 提供 了 一 些 
常见 的 选择 。 


首先 要 考虑 数据 库 管理 系统 的 部 署 ， 作 为 高 可 用 性 集群 的 核心 组 件 。 我 们 需要 的 是 多 个 匈 余 实例 以 及 为 之 量 身 定做 的 实例 间 同 步 机 制 。 一 个 常见 的 选择 是 使 用 MySQL 数 据 库 ， 然 后 通过 部 署 Galera 来 实 
现 多 主 节点 的 同步 复制 ， 也 可 以 用 MariaDB 和 Percona 作 为 MySQL 的 替代 ， 通 过 与 Galera 的 配合 实现 高 可 用 性 。 此 外 ， 例 如 Postgres 这 样 内 置 复制 机 制 的 数据 库 产品 ， 以 及 其 他 数据 库 高 可 用 性 的 方案 也 可 
以 作为 选择 。 


另外 一 个 需要 考虑 的 核心 组 件 是 消息 队列 。 作 为 DpenStack 默 认 的 AMQP 服 务 器 ，RabbitMQ 被 许多 OpenStack 服 务 所 使 用 。 针 对 RabbitMQ 的 高 可 用 性 设计 包括 : 通过 配置 RabbitMQ 使 其 支持 高 可 
用 性 队列 (HA queue) ， 比 如 为 RabbitMQ Broker 配 置 一 个 包含 多 个 RabbitMQ 节 点 的 集群 ; 配置 OpenSstack 服 务 使 用 RabbitMQ 提 供 的 高 可 用 性 队列 ， 即 至 少 配置 两 个 RabbitMQ。 


此 外 ， 在 针对 Openstack 的 高 可 用 性 设计 中 ，HAProxy 也 得 到 了 广泛 的 使 用 。HAProxy 提 供 了 一 种 快速 可 靠 的 解决 方案 ， 包 含 了 高 可 用 性 、 负 载 均 衡 、 针 对 基于 TCP 和 HTTP 应 用 的 代理 服务 等 功能 。 
HAProxy 支 持 虚 拟 IP 地 址 的 配置 ， 可 以 将 一 个 虚拟 IP 地 址 映射 到 多 个 元 余 实 例 的 物理 IP 地 址 。 最 后 考虑 HAProxy 本 身 的 高 可 用 性 ， 通 常 需 要 部 署 至 少 两 个 HAProxy 实 例 ， 从 而 有 效 避 免 单 点 故障 。 


作为 OpenStack 组 件 的 一 个 特例 ， 网 络 组 件 ( 即 Neutron) 在 设计 之 初 就 有 着 高 可 用 性 的 考虑 。Neutron 的 重要 组 成 部 分 是 一 系列 的 代理 组 件 ， 包 括 : Neutron DHCP 代 理 ; Neutron 二 层 网 络 (L2) 
代理 ; Neutron 三 层 网 络 (L3) 代理 ; Neutron 元 数据 (Metadata) 代理 ; Neutron 负 载 均 衡 (LBaaS) 代理 。Neutron 的 调度 器 (Scheduler) 原生 支持 多 活 模式 的 高 可 用 性 ， 并 在 多 个 节点 上 运行 多 份 
代理 组 件 的 实例 。 因 此 ， 除 了 二 层 网 络 (L2) 代理 以 外 ， 所 有 的 代理 组 件 也 都 原生 支持 高 可 用 性 部 署 。Neutron 的 二 层 网 络 (L2) 代理 因为 设计 之 初 就 是 与 物理 服务 器 一 一 对 应 的 ， 与 主机 上 的 虚拟 网 络 组 
件 (如 Open vSwitch 和 Linux Bridge) 紧密 耦合 ， 因 此 天 然 地 就 不 支持 高 可 用 性 。 最 后 ， 如 果 Neutron 被 配置 为 使 用 外 置 的 网 络 控 制 器 ， 例 如 NVP 这 样 的 软件 定义 网 络 方案 来 管理 网 络 ， 则 由 外 部 网 络 控制 
器 提供 高 可 用 性 (详情 参见 前 文 对 软件 定义 网 络 高 可 用 性 的 描述 ) 。 


三 部 分 ”解决 方案 与 应 用 
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第 9 章 ” 辟 体 解决 方案 


SDDKC 的 概念 最 早 由 VMware 公司 在 2012 年 提出 ， 迄 今 为 止 刚 过 了 不 到 2 年 的 时 间 。 因 此 ， 产 业界 暂时 还 没有 真正 的 9DDC， 众 多 传统 数据 中 心 依然 在 向 SDDC 转 型 的 道路 上 。 为 此 本 章 所 提 到 的 一 些 方 
案 ,仅仅 是 抛砖引玉 ， 限 制 于 一 些 主流 的 SDDC 相 关 技 术 。 本 章 将 首先 介绍 SDDC 解 决 方案 的 一 些 基本 要 素 ， 接 着 介绍 两 个 现 有 SDDC 解 决 方案 的 具体 实例 (VMware 和 OpenStack) 。 


9.1 SDDC 的 基本 要 素 


无 论 是 传统 的 数据 中 心 还 是 软件 定义 的 数据 中 心 ， 都 需要 上 层 软件 的 参与 。 那 么 “软件 定义 ”实际 代表 怎样 的 涵义 呢 ? 笔 者 认为 ， 软 件 定 义 应 该 理解 为 面向 数据 中 心 用 户 的 需求 ， 利 用 软件 灵活 地 定义 
且 抽 象 化 各 种 物理 资源 并 呈现 给 用 户 使 用 。 为 此 ，SDDC 和 传统 数据 中 心 最 大 的 区 别 应 该 在 于 SDDC 是 用 户 驱 动 的 ， 以 用 户 的 需求 为 导向 ， 软 件 定义 的 方法 是 手段 而 不 是 目标 。 


前 面 几 章 分 别 介绍 了 软件 定义 的 计算 、 软 件 定义 的 存储 、 软 件 定义 的 网 络 、 自 动 化 资源 管理 、 流 程控 制 、SDDC 的 安全 、SDDC 的 高 可 用 性 等 ， 这 些 都 是 构成 SDDC 解 决 方案 的 一 些 基 本 要 素 ， 如 图 9-1 
所 示 。SDDC 和 传统 的 数据 中 心 相 比 ， 最 大 的 区 别 在 于 存在 软件 定义 的 计算 、 存 储 、 网 络 。 有 了 这 三 驾 马 车 后 ， 数 据 中 心 就 可 以 给 用 户 呈 现 更 好 的 体验 。 举 个 例子 ,假设 用 户 需要 一 个 满足 以 下 条 件 的 计算 
资源 (传统 数据 中 心 的 计算 主机 ，SDDC 中 的 虚拟 机 ) : CPU 4x2.6GHz; Memory 30GB; NIC 2x1Gb。 在 传统 的 数据 中 心 ， 由 于 没有 相关 的 计算 软件 定义 化 技术 ， 常 用 的 方法 是 在 数据 中 心 寻找 合 
适 的 主机 。 但 是 往往 完全 匹配 用 户 的 需求 有 一 定 难度 ， 为 此 数据 中 心 基 本 上 是 提供 一 些 标准 的 配置 。 但 是 使 用 计算 软件 定义 化 手段 后 (主要 利用 服务 器 虚拟 化 技术 ) ，SDDC 提 供 的 虚拟 机 的 配置 会 比较 灵 
活 ， 另 外 也 提高 了 数据 中 心 的 资源 整合 。 
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图 9-1 SDDC 构 成 要 素 


软件 定义 的 计算 、 存 储 和 网 络 是 SDDC 的 基础 ， 但 是 我 们 依然 需要 相关 的 资源 平台 : @ 进 行 对 底层 资源 的 自动 化 管理 ， 为 的 是 进一步 整合 和 利用 软件 抽象 化 的 资源 ; @ 对 资源 的 使 用 进行 流程 化 的 管理 
和 控制 ，@ 提 供 相关 的 安全 服务 和 监控 ， 以 保障 用 户 的 虚拟 资源 以 及 SDDC 资 源 的 使 用 符合 GRC (Governance: 治理 ; Risk: 风险 控制 ; Compliance: 规则 遵从 ) 标准 ; @ 利 用 底层 的 资源 ， 提 供 一 系列 
系统 方面 的 增值 服务 ， 比 如 高 可 用 性 、 高 可 靠 性 等 服务 ; @ 提 供 相关 的 访问 和 管理 接口 ， 不 仅仅 给 SDDC 的 管理 员 提供 相关 的 访问 和 管理 接口 ， 也 制定 了 相应 的 规范 ， 以 供 SDDC 管 理 异 构 的 计算 、 存 储 、 网 
络 资源 ， 进 而 提供 一 系列 面向 用 户 的 服务 ， 诸 如 laaS、PaaS、SaaS 等 。 


92 SDDC 实 例 : VMware 解决 方案 


VMware 针对 不 同 的 云 (私有 云 、 混 合 云 、 共 有 云 ) 提供 了 不 同 的 SDDC 体 系 架 构 。VMware 认 为 在 SDDC 中 ， 应 该 采用 策略 驱动 的 方法 提供 逻辑 的 计算 、 存 储 和 网 络 服务 。 这 样 有 以 下 好 处 : 
- 横 跨 数据 中 心 的 虚拟 化 经 济 学 SDDC 技 术 可 以 实现 更 好 的 基础 设施 利用 率 并 能 够 提高 工作 人 员 的 生产 力 水 平 ， 大 幅 降 低 资 本 支出 和 运行 成 本 。 

- 业务 驱动 的 应 用 ”基于 策略 驱动 的 配置 使 得 应 用 程序 的 启用 和 部 署 在 几 分 钟 甚 至 几 秒 钟 之 内 完成 ， 并 且 可 以 动态 地 进行 资源 匹配 ， 不 断 满足 工作 负载 和 业务 需求 。 

- 业务 感知 的 IT 控制 ”通过 自动 化 的 业务 连续 性 ， 基 于 策略 的 管理 ， 虚 拟 化 感知 的 安全 以 及 法 规 遵从 可 为 每 一 种 应 用 提供 可 用 性 、 安 全 性 和 法 规 遵从 。 

- 根据 自己 的 条 件 设 定 你 的 数据 中 心 SDDC 可 适用 于 私有 云 、 混 合 云 或 公共 云 ， 在 每 种 情况 下 ， 基 础 设施 的 实现 完全 从 应 用 程序 中 抽象 出 来 ， 使 得 应 用 可 以 在 多 个 硬件 堆栈 、 管 理 程序 和 云 上 运行 。 


图 9-2 给 出 了 VMware 针对 私有 云 的 vCloud Suite 架 构 。vCloud suite 主 要 提供 了 以 vSphere 为 主 的 私有 云 ， 用 于 简化 IT 的 管理 并 对 所 有 引用 提供 最 佳 的 SLA。 从 图 9-2 中 ， 可 以 看 出 ， 软 件 定义 计算 主要 
通过 vSphere 及 其 管理 的 ESXi 完 成 ; 软件 定义 存储 主要 由 Virtual SAN 和 基于 vCenter 的 Site Recovery Manager 组 成 ; 软件 定义 网 络 主 要 基于 NSX 和 vCloud Networking and Security。 相 关 的 管理 和 自动 
化 平台 由 以 下 三 个 组 件 完成 : vCAC (vCloud Automation Center) 、vCenter 管 理 套件 (vCenter Operations Management Suite) 、 上 业务 管理 套件 (IT Business Management Suite) , 
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图 9-2 VMware vCloud Suite 架 构图 


此 外 VMware 还 提供 了 vCloud Hybrid Serice 以 针对 混合 云 的 服务 ， 在 私有 云 和 公有 云 之 间 提 供 无 颖 连接 ; 此 外 VMware 和 合作 伙伴 针对 公有 云 还 提供 了 vCloud Data Center Service 和 vCloud 
Powered Service。 后 面 的 章节 我 们 将 重点 关注 VMware 针对 私有 云 的 解决 方案 ， 根 据 vCloud Suite 架 构 ， 以 vSphere 为 主题 (如 图 9-3 所 示 ) 详细 介绍 其 中 一 些 模 块 的 解决 方案 。 
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图 9-3 ”基于 vSphere 管 理 的 虚拟 化 平台 


VMware 在 软件 定义 计算 、 网 络 以 及 存储 的 工作 主要 集成 在 vSphere 中 ， 首 先 看 一 下 vSphere (版 本 5.5) 中 虚拟 化 的 支持 上 限 ， 由 此 可 以 看 出 VYMware 在 计算 虚拟 化 方面 作为 实际 的 “工业 标准 ”的 优 
势 。 


(1) CPU 配置 
1) 主机 CPU 上 限 : 

: CPU3E H & A 75320, 

主机 NUMA 节 点 个 数 为 16。 
2) 虚拟 机 上 限 : 

. 单个 主机 支持 的 虚拟 机 数 为 512。 
. 单个 主机 虚拟 CPU 个 数 为 4096。 
. 单 核 虚拟 CPU 个 数 为 32。 
3) 容错 上 限 : 

- 虚拟 磁盘 为 16。 

- 虚拟 CPU 为 1/VM。 

- 单个 虚拟 机 容错 内 存 为 64GB。 

- 虚拟 机 个 数 为 4VMVhost。 

(2) AGES 

1) 单个 主机 内 存 为 4TB。 

2) 支持 的 swap 文 件数 目 为 1/VM。 
(3) 存储 配置 

1) 虚拟 磁盘 个 数 为 2048/host。 
2) NFS mount 个 数 为 256/host。 
3) Fibre Channel: 

:LUN 数 目 为 256/host。 


:LUN 大 小 为 64TB。 


: LUN ID 为 255。 
4) 通用 的 VMFS (管理 虚拟 机 磁盘 的 文件 系统 ) : 
卷 大 小 为 64TB 。 
- 卷 个 数 为 256/host。 
- Host 个 数 为 16/volume。 
: VMFS 支 持 的 开机 VM 个 数 为 2048/VMES volume. 
- VMFS 支 持 的 并 行 VMotion 的 个 数 为 128/VMEFS volume. 
(4) 网 络 配置 
1) 常用 物理 网 卡 : 
- e1000e (Intel PCI-e) 为 24。 
-igb 1Gb (intel) 为 16。 
- tg31Gb (broadcom) 为 32。 
2) VM Direct Path 上 限 : 
: VMDirectPath PCI/PCIe devices 为 8/host。 
- SR-IOV virtual functions 数 目 为 64。 
- SR-IOV 10Gbps pNICsAK B 7510. 
: VMDirectPath PCI/PCIe devices 224/VM. 


3) vsSphere 标 准 和 分 布 式 软件 交换 机 : 


- 虚拟 交换 机 端口 数目 为 4096/host。 
:分布 式 交 换 机 数目 为 16/vCenteft，16/host。 


以 上 仅仅 给 出 了 vsphere 在 计算 、 存 储 、 网 络 虚 拟 化 方面 的 可 扩展 性 方面 的 支持 ， 可 见 基 本 满足 了 用 户 从 物理 平台 迁移 到 虚拟 化 平台 的 一 些 资源 配置 方面 的 要 求 。 


9.2.1 VMware SDDC 的 计算 


VMware 计算 虚拟 化 方面 的 工作 主要 由 ESXi 完 成 ， 第 2 章 已 经 介绍 过 VMware ESX 的 工作 原理 ， 这 里 不 再 歼 述 ， 本 节 的 重点 为 ESXi 的 优势 和 特性 。 
1) VMware Hypervisor 管 理 程序 占据 很 小 的 磁盘 空间 ， 使 得 ESXi 达 到 高 安全 性 并 且 维 护 代 价 较 低 。 
2) ESXi 采 用 了 一 些 软件 固化 (Hardening) 的 工作 ， 以 保障 VM kernel 和 hypervisor 的 完整 性 。 


3) 高 级 内 存 管理 一 一 内 存 过 量 承诺 (Over Commitment) : ESXi 允 许 一 个 主机 上 虚拟 机 所 用 的 内 存 容量 超过 整个 主机 的 内 存 容量 。 比 如 一 个 主机 的 内 存 有 8GB， 上 面 运行 4 个 VM， 每 个 VM 分 配 的 内 
存 是 3GB， 那 么 这 4 个 VM ， 总 共 占 据 12GB 的 内 存 ， 超 过 了 物理 主机 8GB 的 内 存 ， 这 就 是 过 量 承诺 。 过 量 承诺 是 有 现实 意义 的 ， 它 是 为 了 提高 内 存 的 利用 率 。 因 为 有 些 VM 负 载 较 轻 ， 有 些 较 重 ， 并 且 这 些 是 
一 直 变 化 的 。 为 了 达到 这 个 目标 ，ESXi 采 用 了 以 下 的 方法 学 : 


- 预 留 一 些 内 存 (Memory Reservation) ， 优 先 给 重要 的 虚拟 机 。 


| 内 存 共 享 (Memory Sharing) ， 目 的 是 去 除 重复 的 页 面 ， 采 用 的 是 虚拟 机 之 间 的 内 存 copy-on-write 机 制 。 不 同 虚 拟 机 由 于 运行 相同 的 程序 ， 从 而 导致 一 些 可 读 的 内 存 物 理 页 相同 ， 因 此 可 保留 一 个 副 
本 。 


:内存 压缩 (Memory Compression) : 当 使 用 内 存 过 度 承诺 的 时 候 ，ESXi 提 供 了 内 存 压 缩 缓存 (Memory Compression Cache) 来 提高 虚拟 机 的 性 能 。 内 存 压缩 是 默认 启用 的 。 当 一 人 台 主 机 的 内 存 过 量 承 诺 
时 ，ESXi 会 压缩 虚拟 页 面 ， 并 将 它们 存储 在 内 存 中 。 由 于 访问 压缩 的 内 存 比 访问 交换 到 外 部 磁盘 的 swap 文 件 要 快 ， 使 用 内 存 压 缩 缓 存 不 会 显著 影响 性 能 。 当 一 个 虚拟 页 需要 交换 上 时，ESXi 首 先 尝 试 压缩 页 
面 。 页 面 可 以 被 压缩 到 2KB 或 更 小 ， 然 后 存储 在 该 页 面 所 属 的 VM 的 压缩 缓存 中 ， 这 样 就 增加 了 主机 的 内 存 容量 。 


“ 可 靠 的 容错 机 制 : 对 单个 虚拟 机 容错 的 最 大 内 存 支持 可 到 64GB。 


4) ESXi 可 支持 各 种 打包 和 客户 定制 的 应 用 ， 如 对 运行 Hadoop 也 有 支持 。 


9.2.2 VMware SDDC 的 存储 


VMware 是 一 家 纯 软件 公司 ， 不 生产 相关 硬件 ， 但 是 VMware 使 用 软件 的 方法 提供 一 系列 相关 的 存储 服务 。 不 过 VMware 的 存储 基本 上 是 围绕 虚拟 机 磁盘 (VMDK) RF. 


VMware 管理 VMDK 的 文件 系统 称 为 VMFS，VMFS 可 封装 底层 不 同 的 物理 存储 (例如 Local Storage. SAN. NAS) ， 给 上 层 的 虚拟 机 提供 统一 的 接口 ， 使 得 VM 使 用 虚拟 磁盘 永远 像 主 机 使 用 本 地 磁 
盘 一 样 ， 如 图 9-4 所 示 。 此 外 在 VMFS 上 可 建立 datastore (逻辑 上 ) 的 概念 ， 当 然 datastore 亦 可 建立 在 NFS 上 。 当 然 给 虚拟 机 提供 相应 的 虚拟 磁盘 是 最 基本 的 需求 ， 除 此 之 外 ，VMware 还 提供 了 以 下 功 
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图 9-4 VMFS 可 封装 不 同 存储 示例 


1.Thin Provisioning (自动 精简 配置 ) 


自动 精简 配置 是 相对 于 传统 的 Thick Provisioning (密集 配置 ) 而 言 的 ， 采 用 的 方法 学 是 按 需 分 配 存储 ， 以 提高 存储 利用 率 ， 而 密集 配置 ， 则 是 在 一 开始 直接 分 配 需要 的 存储 。ESXi 提 供 了 两 种 方式 的 精 
简 配 置 : 虚拟 磁盘 级 别 (Virtual-Disk Level) 和 阵列 级 别 (Array Level) 。 


2.VMDK 级 别 的 自动 精简 配置 


图 9-5 给 出 了 虚拟 机 磁盘 精简 配置 和 密集 配置 所 带 来 的 区 别 ， 此 外 VMware 还 提供 了 一 系列 精简 配置 的 策略 。 
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图 9-5 ”虚拟 机 精简 /密集 配置 比较 


1) Thick Provision Lazy Zeroed: 根据 用 户 虚拟 机 对 磁盘 大 小 的 需求 ， 直 接 分 配 所 有 的 磁盘 空间 ， 但 是 不 对 磁盘 进行 清 零 操作 。 等 到 用 户 虚拟 机 第 一 次 操作 磁盘 的 时 候 ， 再 进行 相关 的 磁盘 清 零 操 
作 ， 以 防止 用 户 读 到 非法 数据 。 


2) Thick Provision Eager Zeroed: 和 Thick Provision Lazy Zeroed 策 略 相似 ， 亦 是 根据 用 户 需求 ， 直 接 分 配 存储 空间 。 但 是 对 磁盘 的 清 零 操作 在 磁盘 创建 的 时 候 就 完成 ， 因 此 这 样 创建 一 个 磁盘 需要 
花费 很 长 时 间 。 


3) Thin Provision: 不 根据 用 户 对 磁盘 的 需求 一 次 性 分 配 所 有 的 磁盘 空间 ， 而 是 按 需 分 配 。 当 虚拟 机 对 磁盘 操作 的 时 候 ， 再 分 配 相 应 的 磁盘 块 并 进行 清 零 操 作 。 精 简 配置 的 好 处 是 一 开始 虚拟 磁盘 能 
很 快 创建 。 但 坏处 是 ， 随 着 用 户 磁 盘 空间 的 增长 ， 管 理 自动 精简 配置 的 元 数据 也 会 很 快 增长 ， 造 成 空间 的 浪费 和 可 能 的 性 能 下 降 。 
3. 阵 列 级 别 的 自动 精简 配置 


存储 阵列 提供 给 ESXi 主 机 的 传统 LUN (Logic Unit Number) 一 般 都 是 密集 配置 。 当 一 个 LUN 被 分 配 好 的 时 候 ， 整 个 物理 空间 会 被 立即 分 配 。ESXi 亦 支持 自动 精简 配置 的 LUN， 当 该 LUN 被 分 配 的 时 
候 ， 存 储 阵列 报告 LUN 的 逻辑 大 小 ， 当 然 给 出 的 逻辑 LUN 可 能 要 比 实 际 物理 容量 所 能 支持 的 LUN 大 。 


部 署 在 精简 配置 的 LUN 上 的 VMFS， 只 可 侦 测 逻辑 LUN 的 大 小 。 例 如 ， 一 个 存储 阵列 实际 只 提供 2TB 大 小 的 存储 ， 但 报告 给 VMFS 的 逻辑 大 小 是 4TB， 那 和 VMFS 就 认为 它 最 多 可 使 用 4TB 大 小 的 空间 。 
因此 当 数 据 增 长 的 时 候 ，VMFS 不 能 侦 测 物理 存储 空间 是 否 能 满足 其 需要 。 我 们 需要 使 用 人 存储 相关 的 API 阵 列 集成 (Storage APIs for Array Integration) ， 那 么 主机 就 可 以 和 物理 存储 进行 整合 ， 并 且 识 别 
出 所 使 用 的 LUN 是 精简 配置 ， 以 及 实际 物理 存储 的 空间 使 用 情况 。 


使 用 精简 配置 集成 ， 主 机 需 执行 以 下 任务 : 


监控 自动 精简 配置 的 LUN， 以 避免 用 完 物理 空间 的 可 利用 空间 。 当 你 的 数据 存储 增长 或 者 有 虚拟 机 通过 stotage vMotion 迁 移 到 该 LUN 上， 主机 必须 和 LUN 所 在 的 物理 存储 通信 ， 并 警告 可 能 出 现 超出 物 
理 空间 大 小 的 情况 。 


: 当 LUN 上 的 文件 被 删除 或 者 通过 storage migration 被 移 走 的 时 候 ， 需 要 通知 阵列 ， 那 么 该 阵列 就 可 以 回收 和 释放 相应 的 存储 块 。 
4.Storage API 


存储 厂商 可 以 使 用 VMware 定义 的 VASA API， 给 vSphere 提 供 有 关 磁 盘 阵 列 的 特定 信息 以 达到 存储 和 虚拟 基础 架构 之 间 更 紧密 的 集成 。 共 享 信息 包括 存储 虚拟 化 的 细节 ， 例 如 健康 状况 、 配 置 、 容 量 和 
自动 精简 配置 。 这 种 详细 信息 可 通过 VMware vCenter Server 传 播 给 用 户 。 具 体 来 讲 ， 对 于 存储 收集 的 信息 ， 主 要 围绕 磁盘 阵列 的 特定 功能 ， 如 快照 、 重 复数 据 删 除 、 复 制 状 态 (Replication State) 、 
RAID 级 别 、 精 简 配 置 或 密集 配置 以 及 存储 系统 状态 (健康 、 故 障 排除 ) 等 。 这 样 很 容易 让 管理 员 根据 虚拟 机 创建 时 所 需 的 容量 、 性 能 等 细节 来 选择 最 合适 的 存储 资源 。 另 外 ， 还 可 以 和 其 他 vSphere 功 能 整 
合 ， 诸 如 VMware vSphere 的 存储 DRS、 基 于 信息 收集 分 析 和 驱动 的 存储 。 


下 面 介绍 一 下 常用 的 功能 和 APl: 


- 阵列 集成 (vStorage APIs for Array Integration, VAAI) 。vSphere 提 供 了 一 个 API， 把 一 些 存储 相关 的 特定 操作 和 印 载 给 磁盘 阵列 去 完成 ， 这 样 可 提供 更 好 的 性 能 和 效率 。 在 VAAI 支 持 下 ，vSphere 可 以 更 
快 地 执行 关键 操作 并 消耗 更 少 的 CPU、 内 存 和 存储 带宽 。 一 些 可 印 载 到 存储 阵列 的 操作 包括: 把 存储 块 复制 和 清 零 操作 趣 载 给 存储 ; 在 存储 阵列 中 ， 支 持 空间 回收 以 及 自动 精简 配置 超出 空间 的 警告 ， 完全 
支持 NAS 和 基于 块 的 存储 。 


多 路 径 〈Multipathing) 。 通 过 整合 第 三 方 存储 厂商 的 多 路 径 软 件 来 提高 存储 I/O 的 性 能 。 诸 如 模块 化 存储 架构 ， 使 存储 合作 伙伴 为 它们 的 特定 功能 编写 播 件 ; 插件 和 存储 阵列 通信 ， 以 确定 从 YSpherte 


主机 到 存储 阵列 通信 选择 的 是 最 佳 路 径 ， 以 及 利用 并 行路 径 来 提高 I/O 性 能 和 可 靠 性 。 


数据 保护 (Data Protection) 。 备 份 软 件 使 用 VMwate vSphere API 进 行 数据 保护 ， 实 现 不 中 断 应 用 程序 和 用 户 业 务 的 可 扩展 备份 。vSphete storage API 的 数据 保护 使 得 备份 软件 可 以 对 虚拟 机 实施 中 央 式 
的 备份 ， 而 无 需 打 断 虚 拟 机 的 运行 ， 并 且 减 少 了 原本 在 虚拟 机 内 部 进行 备份 所 带 来 的 开销 。 比 如 可 执行 : 完整 、 差 异 和 增 量 虚拟 机 映像 备份 和 恢复 ; 使 用 支持 该 服务 的 Windows 和 Linux 操 作 系 统 ， 可 执行 文 
件 级 虚拟 机 备份 ; 通过 使 用 Mictosoft 卷 影 复制 服务 (VSS) 来 备份 运行 Micfosoft Windows 操 作 系 统 的 虚拟 机 ， 可 保证 数据 的 一 致 性 。 


5.VSA (Virtual Storage Appliance) 


VMware vSphere Storage Appliance (VSA) 是 VMware 的 虚拟 插件 ， 在 实现 中 它 打 包 了 SUSE LINUX 和 存储 集群 的 服务 。VSA 虚 拟 机 运行 在 多 个 ESXi 主 机 上 来 抽象 安装 在 各 个 主机 上 的 存储 资源 ， 
以 组 成 一 个 VSA 和 集群 。VSA 和 集群 提 供 的 数据 存储 可 以 供 数据 中 心 的 所 有 主机 访问 。 而 且 可 以 创建 拥有 2 个 或 者 3 个 成 员 的 VSA， 当 超过 半数 的 成 员 上 线 时 ,该 VSA 就 是 在 线 的 。VSA 支 持 以 下 功能 : 


: 创建 的 datastore 可 以 被 数据 中 心 的 所 有 主机 共享 。 
- 每 个 datastore 都 有 备份 。 

- 支持 vSphere vMotion 和 HA。 

.支持 硬件 和 软件 的 故障 转移 。 

. 可 替换 VSA 中 失效 的 成 员 

. 可 恢复 一 个 曾经 存在 的 集群 。 


图 9-6 给 出 了 3 种 不 同 的 VSA 配 置 ， 主 要 区 别 在 于 是 使 用 集成 在 VMware vCenter server 中 的 VSA cluster service， 还 是 使 用 自己 管理 的 VSA cluster service, 
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图 9-6 VSA 示 例 


9.2.3 VMware SDDC 的 网 络 


VMware 在 网 络 方面 的 工作 也 是 非常 强大 的 ， 在 还 没 提供 虚拟 网 络 服 务 之 前 的 标准 vSphere 配 置 中 就 集成 了 一 些 比较 重要 的 组 件 和 功能 。 


1.vSphere 标 准 交 换 机 (Standard Switch) 和 分 布 式 交 换 机 (Distributed Switch) 


图 9-7 给 出 了 vSphere 标 准 交换 机 的 结构 ， 为 了 提供 主机 和 虚拟 机 的 网 络 连 接 ， 连 接 主机 的 物理 网 卡 (NIC) 会 连接 到 标准 交换 机 的 上 行 链 路 端口 ， 虚 拟 机 把 它 的 网 络 适配器 (vNIC) 连接 到 标准 交换 机 
的 端口 组 中 。 每 个 端口 组 可 使 用 一 个 或 者 多 个 物理 网 卡 来 处 理 它们 的 网 络 流量 。 如 果 一 个 端口 组 没有 连接 任何 物理 网 卡 ， 那 么 在 这 个 端口 组 中 的 虚拟 机 不 能 通过 外 部 网 络 来 进行 通信 。 也 就 是 说 如 果 一 个 端 
口 组 中 的 虚拟 机 位 于 不 同 的 物理 机 上 ， 这 个 端口 组 在 相应 的 物理 机 上 必须 接 上 相应 的 物理 网 卡 。 


图 9-7 vSphere 标 准 交 换 机 示意 图 


图 9-8 给 出 了 vSphere 分 布 式 交换 机 的 架构 图 ， 和 标准 交换 机 的 区 别 在 于 vSphere 分 布 式 交换 机 提供 集中 管理 和 监控 与 该 交换 机 相关 联 的 所 有 主机 的 网 络 配置 。 在 vCenter Server 系 统 中 设置 分 布 式 交换 
机 ， 相 关 设 置 会 传播 到 与 该 交换 机 相关 联 的 所 有 主机 上 。 


2. 网 络 资源 管理 


在 网 络 资源 方面 ，VMware 提 供 了 一 些 非 常 有 用 的 功能 : 


1) vSphere Network I/O Control: vsphere 提 供 了 一 个 网 络 资源 池 ， 网 络 资源 池 决 定 了 vsphere 分 布 式 交 换 机 中 不 同类 型 网 络 的 带宽 。 当 网 络 MO 流 量 控制 被 打开 的 时 候 ， 网 络 资源 的 带宽 被 默认 地 


分 成 了 以 下 几 种 类 型 : Fault Tolerance 流 量 、iSCSI 流 量 、vMotion 流 量 、management 流 量 、vSphere Replication (VR) 流量 、NFS 流 量 和 virtual machine 流 量 。 


2) TCP Segmentation Offload and Jumbo Frames: 使 用 VMkernel 网 络 适 配器 中 的 TCP 分 段 印 载 (TSO) ， 以 及 vSphere 分 布 式 交换 机 或 vSphere 标 准 交 换 机 上 的 巨型 帧 ， 可 以 提高 虚拟 机 和 基础 
架构 工作 负载 的 网 络 性 能 。 


port groups 


[] [ ] [mn] [. | 1—31 1 [1 [ 


图 9-8 vSphere 分 布 式 交换 机 架构 图 
3) Direct Path I/O: 给 虚拟 机 配置 passthrough 的 设备 ， 即 让 虚拟 机 直接 访问 具体 的 物理 网 卡 而 不 是 虚拟 的 ， 可 以 提高 性 能 。 


4) SR-IOV (Single Root I/O Virtualization) : 在 vsphere 中 ， 虚 拟 机 可 使 用 SR-IOV 虚 拟 功能 的 网 络 ， 这 样 虚拟 机 和 物理 适配器 交换 数据 无 需 使 用 /Mkernel 作 为 中 介 。 显 然 绕 过 VMkernel， 缩 短 了 
网 络 延迟 ， 提 高 了 CPU 效率 。 


3. 用 户 逻 辑 网 络 和 数据 中 心 网 络 的 解 耦合 
SDDC 中 客户 所 使 用 的 网 络 资源 应 该 和 数据 中 心 的 网 络 资源 分 离 ， 为 此 VMware 提供 了 VMware NSX， 如 图 9-9 所 示 。NSX 有 以 下 几 个 关键 的 组 件 : 


1) 逻辑 交换 机 (Logical Switch) : 解 耦合 底层 硬件 ， 在 虚拟 环境 中 重 现 完整 的 L2 和 L3 交 换 机 的 功能 。 


2 


— 


NSX Gateway: L2 网 管 负责 给 虚拟 网 络 无 颖 连接 物理 的 工作 负载 和 VLAN。 


3 


— 


Logical Routing (逻辑 路 由 ) : 在 逻辑 交换 机 之 间 提 供 路 由 功能 ， 主 要 针对 不 同 虚拟 网 络 。 


4 


— 


Logical Firewall (逻辑 防火 墙 ) : 分 布 式 防火 墙 ， 进 行 性 能 、 虚 拟 化 和 身份 感知 以 及 网 络 活动 监控 。 


5 


— 


Logical Load Balancer: 基于 SSL 的 全 功能 负载 均衡 器 。 


6 


— 


Logical VPN (逻辑 VPN) : 负责 站 点 到 站 点 ， 以 及 远程 的 VPN 访 问 。 


7) NSX API: 为 云 平台 整合 提供 的 RESTful API, 


— 
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图 9-9 VMware NSX 组 成 


9.2.4 VMware SDDC 的 高 可 用 性 和 容错 


停机 时 间 ， 无 论 是 计划 内 或 计划 外 ， 都 会 带 来 相当 大 的 成 本 。 然 而 确保 更 高 级 别 的 可 用 性 解决 方案 历来 昂贵 ， 难 以 实现 ， 且 难以 管理 。VMware 的 解决 方案 使 它 实现 起 来 更 简单 ， 成 本 更 低 。 通 过 
vSphere， 可 以 轻松 地 提高 应 用 程序 可 用 性 的 基准 ， 提 供 更 高 级 别 的 可 用 性 ， 节 省 成 本 。 总 体 来 说 ， 需 要 达到 以 下 目标 : 


1) 减少 计划 内 的 停机 时 间 。 一 般 来 讲 ， 计 划 内 的 停机 时 间 占 据 了 数据 中 心 80% 的 停机 时 间 ， 为 了 减少 这 一 时 间 。VMware 提 供 了 虚拟 机 的 实时 动态 迁移 ( 亦 支 持 虚 拟 磁 盘 的 迁移 ) ， 来 减少 服务 的 中 
断 。 使 用 虚拟 机 动态 迁移 的 好 处 有 : 减少 常用 维护 操作 的 停机 时 间 ; 减少 计划 内 的 维护 窗口 ;在 进行 维护 的 时 候 不 中 断 用 户 和 相关 的 服务 。 


2) 阻止 计划 外 的 停机 时 间 。VMware 的 vsphere 提 供 了 一 系列 的 容错 机 制 来 降低 客户 应 用 意外 的 中 断 ， 如 : 人 @@ 使 用 共享 的 存储 ， 人 存放 在 共享 存储 上 (诸如 Fibre Channel, iSCSI SAN, NAS) 的 虚拟 
机 文件 都 有 相关 的 复制 机 制 ， 比 如 SAN mirroring; @ 网 卡 组 ， 减 少 单 块 网 卡 损坏 的 故障 ; @@ 存 储 多 路 径 (Storage Multipathing) ， 减 少 存储 路 径 的 失败 。 


3) vSphere 的 HA 机 制 。 使 用 多 个 ESXi 主 机 组 成 一 个 集群 给 在 虚拟 机 中 运行 的 应 用 程序 提供 高 可 用 性 和 快速 恢复 。 主 要 的 机 制 包括 : 


“ 主 从 节点 机 制 。 一 个 集群 中 的 ESXi 主 机 ， 要 么 是 Mastet 节 点 ， 要 么 是 slave 节 点 。Mastet 节 点 的 功能 是 监控 slave 节 点 的 状态 ， 监 控 所 有 在 开机 状态 被 保护 的 虚拟 机 ， 管 理 集群 中 所 有 的 主机 和 被 保护 的 虚 
拟 机 ， 作 为 vCenter 和 集群 的 管理 接口 汇报 集群 的 健康 状态 。 相 比 Mastet 节 点 ，slave 节 点 主要 负责 本 机 上 虚拟 机 的 状态 ， 并 且 汇 报 给 Master 节 点 。 


主机 错误 类 型 和 侦 测 。 侦 测 以 下 三 种 错误 : 主机 功能 停止 ; 主机 网 络 出 现 问题 ; 主机 和 Mastet 节 点 之 间 的 通信 中 断 。 


: 虚拟 机 和 应 用 的 监控 。 虚 拟 机 状态 的 监控 ,主要 是 通过 虚拟 机 监控 服务 (主要 使 用 VMware Tools) 监控 虚拟 机 正常 的 心跳 以 及 LI/O 的 一 些 活 动 行为 。 如 果 出 现 异 常 ， 则 对 虚拟 机 进行 重启 。 应 用 的 监控 
必须 通过 一 些 特殊 的 SDK (或 者 应 用 本 来 就 支持 VMware 应 用 的 监控 ) ， 这 样 ， 监 控 应 用 和 监控 虚拟 机 就 差不多 了 。 


:此 外 vSphete HA 会 对 网 络 进行 划分 ， 监 控 datastote 的 心跳 ， 并 且 可 以 和 DRS 共 同 使 用 。 


92.5 VMware SDDC 的 自动 化 


VMware 自动 化 机 制 (Automation) 主要 存在 以 下 功能 : 
1) 动态 资源 调度 (Dynamic Resource Scheduling，DRS) : DRS 实 际 是 ESXi host 组 成 的 功能 中 的 一 部 分 。 根 据 业 务 优先 级 ， 实 施 跨 主 机 自动 负载 平衡 以 达到 资源 的 合理 分 配 。 
. 提供 虚拟 机 组 同时 启动 (Group Power On) 。 


- 使 用 讶 拟 机 动态 迁移 ， 以 达到 负载 平衡 。 比 如 图 9-10 给 出 了 一 个 动态 负载 平衡 的 示例 。 图 的 左面 说 明 在 没有 动态 平衡 的 时 候 ， 主 机 1 上 运行 了 6 个 虚拟 机 ， 导 致 负 载 过 重 。 系 统 侦 测 到 这 一 情况 
后 ，VM4 和 VM5 被 动态 迁移 到 主机 2 上 ，VM6 被 动态 迁移 到 主机 3 上 。 当 然 DRS 的 迁移 是 有 一 定 触 发 条 件 的 ， 需 要 进行 相关 的 配置 。 


A910 动态 负载 平衡 示例 


vsSphere 人 存储/O 可 以 控制 集群 范围 的 存储 MO 优先 级 ， 从 而 更 好 地 整合 工作 负载 ， 并 有 助 于 减少 过 度 服 务 (Over-Provisioning) 产生 的 额外 开销 。 主 要 是 
fe^, 


2) 存储 1/O 控 制 (Storage MO Control) : 
。 通 过 这 样 的 机 制 ， 能 够 对 虚拟 机 的 MO 进行 自动 化 管 


通过 设置 存储 MO 的 共享 和 IOPS 的 限制 来 实现 。 比 如 ， 一 般 的 虚拟 机 VO share 的 值 设 为 1000 (Normal) ，IOPS 设 置 为 unlimited ( 即 有 多 少 用 多 少 ) 
理 ， 避 免 有 些 虚 拟 机 过 度 使 用 资源 。 


3) 配置 文件 驱动 的 存储 (Profile-Driven Storage) : 给 存储 池 提 供 了 可 见 的 信息 ， 让 管理 员 可 以 优化 和 自动 化 存储 供应 。VMware 管 理 员 通 过 克服 前 期 存储 配置 的 挑战 ， 如 容量 规划 、 差 异化 的 服务 
水 平和 管理 能 力 、 扩 展 空间 的 能 力 。 就 可 以 根据 业务 的 需求 ， 可 扩展 性 地 供应 存储 ， 而 不 是 根据 不 同 的 虚拟 机 进行 相关 的 个 案 处 理 。 有 了 配置 文件 驱动 的 存储 以 后 ， 每 个 虚拟 机 都 有 一 个 存储 相关 的 配置 文 
f, 里面 主要 定义 了 需要 申请 的 存储 的 一 些 特征 ， 比 如 SLA、 可 用 性 、 性 能 等 参数 。 这 样 管理 系统 ( 指 vSphere) 就 可 以 给 虚拟 机 合理 分 配 存 储 ， 并 且 在 运行 过 程 中 进行 动态 调整 。 图 9-11 给 出 了 一 个 根据 


虚拟 机 配置 文件 分 配 存 储 的 示例 。 在 vSphere 管 理 的 后 台 存 储 分 为 三 层 ， 性 能 从 高 到 低 依 次 是 Tier1、Tier2、Tier3。 由 于 该 虚拟 机 的 SLA 中 的 一 个 需求 是 |/O 高 性 能 ， 所 以 vSphere 就 把 这 个 虚拟 机 分 配 到 
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图 9-11 根据 VM 的 配置 文件 ， 按 需 分 配 存储 


9.2.6 VMware SDDC 的 安全 机 制 


VMware 在 软件 定义 的 计算 、 网 络 、 存 储 等 方面 都 有 相关 的 安全 机 制 解决 方案 ， 第 7 章 中 列举 了 VMware 一 些 有 关 安 全 的 例子 ， 但 是 都 比较 具体 。 这 里 将 主要 介绍 VMware vShield 这 一 安全 解决 方案 。 
对 SDDC 的 用 户 而 言 ， 主 要 需要 解决 以 下 几 个 方面 的 挑战 : 应 用 和 数据 的 安全 性 ; 安全 的 可 视 化 和 管理 ; 规则 (Compliance) 遵从 管理 。 图 9-12 给 出 了 vshield 隔 离 不 同 应 用 的 效果 图 ， 在 图 中 我 们 可 以 看 
到 ， 虚 拟 机 被 划分 为 三 个 不 同 的 区 域 (DMZ, DevelopmentfüFinance) 。 有 具体 来 说 VMware 的 vshield 解 决 方案 主要 有 以 下 功能 : 


- 超越 物理 安全 的 限制 。vShield 的 安全 考量 以 虚拟 机 为 单位 。 

- 简单 的 管理 框架 。vShicld 提 供 了 统一 的 管理 框架 ， 可 以 在 数据 中 心 的 各 个 层 进行 安全 保护 ， 诸 如 在 主机 层 、 网 络 、 应 用 、 数 据 和 客户 端 。 
` 减少 复杂 性 ， 去 除 性 能 瓶颈 。 举 个 例子 ， 在 vShield 框 架 下 ， 没 有 必要 在 每 个 虚拟 机 内 部 再 安装 杀毒 软件 。 

“ 改善 可 视 化 ， 增 强 规则 准 。vSphere 可 以 进行 文件 级 别 的 完整 性 检测 、rootkit 的 防御 以 及 数据 丢失 的 防止 (Data Loss Prevention, DLP) o 


. 利用 已 有 的 解决 方案 。vShield 提 供 了 一 系列 的 RESTful API， 允 许 和 第 三 方 的 安全 解决 方案 整合 。 
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图 9-12 vShield 根 据 应 用 隔离 不 同 虚 拟 机 


9.2.7 VMware SDDC 的 管理 


VMware 的 管理 软件 除了 vCenter、vCloud director， 整 合 SDDC 或 者 云 的 比较 重要 的 软件 是 vCAC， (VMware vCloud Automation Center) 。vCAC 的 前 身 是 dynamicOPs Cloud Automation 
Center， 来 自 于 被 VMware 在 2012 年 7 月 收购 的 dynamicOPs 公 司 。 


vCAC 的 目标 是 给 予 企 业 自 动 化 部 署 自 己 定制 的 IT 服 务 。 它 为 应 用 发 布 自动 化 提供 了 一 个 统一 的 解决 方案 ， 并 支持 各 种 DevOps 的 自动 化 工具 ， 能 够 抽象 多 样 化 的 基础 设施 服务 ， 如 图 9-13 所 示 。 通 过 自 
助 服务 目录 ， 用 户 可 请 求 和 管理 不 同 的 服务 商 、 多 样 的 去 应用、 基础 设施 以 及 定制 服务 。 基 于 策略 的 管理 使 得 用 户 在 整个 服务 周期 内 的 任务 都 能 够 得 到 大 小 合适 的 资源 。 灵 活 的 自动 化 方法 提供 了 自动 化 部 
署 新 盯 服 务 的 敏捷 性 ， 同 时 通过 把 服务 映射 到 现 有 的 基础 设施 、 过 程 和 环境 中 ， 有 效 地 利用 了 现 有 资产 。 图 9-14 给 出 了 vCAC 管 理 不 同 云 服 务 的 示例 。 首 先 vCAC 可 以 集成 VMware 的 vCloud director， 此 外 
可 以 管理 其 他 服务 商 的 管理 平台 ， 例 如 亚马逊 的 云 服 务 、 微 软 的 Windows Azure, CITRIX Xen 6%, 
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图 9-13 ”基于 vCAC 的 软件 生命 周期 管理 


vCloud Automation Center 
Paas 


— | «Cloud Other = T 
vCloud Director Service || Service | Hardware 


Providers Providers 


Software Defined Services 
( networking,security, 
storage,availability ) 


vSphere i 


图 9-14 vCAC 对 不 同 平台 云 服务 的 管理 


9.2.8 VMware SDDC 实 现 小 结 


本 节 详 细 介 绍 了 VMware 针 对 SDDC 的 解决 方案 ， 首 先 介绍 了 VMware 在 软件 定义 计算 、 存 储 以 及 网 络 方面 的 工作 ， 接 着 介绍 了 VMware 基 于 软件 定义 的 资源 层 所 提供 的 一 些 增值 服务 ， 诸 如 VMware 
的 高 可 用 性 和 容错 性 解决 方案 、 安 全 解决 方案 、 自 动 化 解决 方案 ， 最 后 介绍 了 VMware 针 对 多 样 化 应 用 、 基 础 机 构 、 服 务 的 一 个 单一 管理 工具 vCAC。 不 难看 出 ，VMware 对 于 整个 SDDC 的 解决 方案 是 自 下 
而 上 、 面 面 俱 到 ， 具 有 很 强 的 竞争 力 。 


9.3 SDDC 实 例 : OpenStack 解 决 方案 


相对 于 VMware 公司 的 “ 闭 源 ” 解 决 方案 ， 开 源 社 区 提出 了 Openstack。Openstack 是 一 个 致力 于 私有 云 和 公有 云 的 开源 解决 方案 ， 主 要 解决 数据 中 心 的 基础 架构 ， 即 laaS。 尽 管 是 一 个 开源 项 目 ， 但 
是 OpenStack 受 到 了 很 多 公司 的 青睐 ,具有 众多 的 赞助 商 ， 其 中 铂金 赞助 商 8 个 ， 黄 金 赞助 商 19 个 ， 一 般 赞 助 商 58 个 ， 此 外 还 有 250 个 组 织 支 持 着 Openstack 的 各 项 活动 。 另 外 Openstack 主 页 上 显示 直接 
参加 OpenStack 研 究 和 开发 的 国家 有 132 个 ， 人 员 14255 名 (此 数据 截止 2014 年 2 月 20 日 ) 。 笔 者 认为 其 中 最 主要 的 原因 在 于 ，Openstack 的 云 基础 架构 比较 开放 ， 如 图 9-15 所 示 。OpenStack 软 件 主 要 由 
四 部 分 组 成 ， 计 算 模块 (软件 定义 计算 ) 、 网 络 模块 (软件 定义 网 络 ) 、 存 储 模块 (软件 定义 存储 ) 以 及 管理 所 使 用 的 相关 的 Dashboard。 这 些 解 决 方案 都 是 一 些 框架 ， 因 此 企业 可 以 根据 提供 的 API， 融 
入 其 特有 的 解决 方案 。 
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图 9-15  OpenStack 2244 
虽然 Openstack 的 初衷 是 解决 云 计算 的 基础 架构 问题 ， 但 亦 可 以 作为 软件 定义 数据 中 心 的 一 个 解决 方案 。 图 9-16 给 出 了 Openstack 的 概念 图 ， 其 中 : 
- 控制 面板 (Horizon) 提供 了 用 户 管理 和 访问 其 他 Openstack 服 务 的 web 前 端 。 
. 计算 (Nova) 获取 相关 磁盘 的 镜像 提供 计算 服务 。 
:网络 (Neutron) 用 于 给 计 草 提供 相关 的 虚拟 网 络 。 
“ 存储 : 块 存储 (Block Storage) 给 计算 提供 存储 卷 ; 镜像 存储 (Image Storage) 把 虚拟 机 镜像 存储 在 对 象 存 储 中 (Swift) ; 身份 认证 (Identity Authentication) 都 由 Keystone 完 成 。 


图 9-17 给 出 了 Openstack 具 体 的 逻辑 架构 图 ， 从 图 中 可 以 看 到 : 终端 用 户 可 以 通过 网 页 界面 (horizon) 去 访问 服务 ， 或 者 直接 通过 各 个 部 件 提供 的 API; 所 有 的 服务 通过 统一 的 资源 “keystone” 进 
行 认证 ; 单个 服务 之 间 可 以 通过 各 自 暴 露 的 公共 API 通 信 (除非 有 些 命令 需要 管理 员 权限 ) 。 以 下 几 小 节 会 简要 介绍 各 个 模块 的 功能 。 
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9.3.1 Horizon 控制 面板 


和 其 他 web 应 用 相似 ，Horizon 的 架构 比较 简单 。 
1) Horizon 通 过 mod_wsg 部 署 在 apache 服 务 中 ， 并 被 分 隔 在 几 个 可 重用 的 python 模 块 中 ， 代 码 的 主要 内 容 分 为 两 块 : 和 其 他 openstack 的 服务 进行 交互 ， 提 供 展示 功能 。 


2) 一 个 数据 库 。 主 要 依赖 于 其 他 服务 的 一 些 数据 ， 自 身 也 会 存放 一 些 数据 。 


9.3.2 ”Nova 计 算 组 件 


Nova 是 Openstack 中 最 复杂 、 最 重要 的 分 布 式 组 件 。 下 面 是 Nova 中 一 些 重要 的 进程 和 它们 的 功能 。 


1) Nova-api: 用 于 接收 和 回复 用 户 对 于 计算 API 的 调用 。 它 支持 Openstack 的 计算 API、 亚 马 逊 的 EC2API， 以 及 一 些 管理 员 的 API (主要 是 特权 用 户 进行 管理 的 操作 ) 的 调用 。 另 外 可 发 起 一 系列 的 协 
调 操作 (如 运行 一 些 实例 ) 以 及 强制 执行 一 些 策略 (例如 quata 的 策略 ) 。 


2) Nova-compute 进 程 : 主要 是 和 一 些 hypervisor 提 供 的 API 进 行 交 互 用 于 创建 和 终止 虚拟 机 。 常 用 的 hypervisorAPI 包 括 : 针对 XenServer/XCP 的 XenAPl; 针对 KVM/Qemu 的 libvirt; 针对 VMware 
的 VMwareAPI。 这 样 做 的 过 程 相当 复杂 ， 但 基本 原理 很 简单 : 接受 来 自 队列 的 操作 ， 然 后 执行 一 系列 的 系统 命令 (如 启动 KVM 的 实例 ) 以 实施 ， 同 时 需要 更 新 数据 中 的 状态 。 


3) Nova-volume: 用 于 管理 计算 实例 所 需 的 块 存储 的 创建 、 安 装 和 御 载 ， 功 能 上 类 似 于 亚马逊 的 弹性 块 存储 (EBS) 。 它 可 以 通过 iSCSI 使 用 一 系列 存储 服务 商 提 供 的 卷 或 者 使 用 Ceph 中 的 
RBD (Rados Block Device) 。folsom 版 本 以 后 ，Openstack 中 的 cinder 会 替代 Nova-volume 的 功能 。 


4) Nova-networker: 和 Nova-compute、Nova-volume 相 似 ， 它 接收 来 自 队列 的 网 络 任务 ， 然 后 处 理 相 关 任 务 来 操作 网 络 (如 设 定 桥接 的 接口 或 者 修改 iptables 的 规则 ) 。 这 种 功能 在 folsom 以 后 
的 版 本 中 ， 被 迁移 到 Openstack 独 立 的 项 目 Quantum 中 。 


5) Nova-process 进 程 : 是 Nova 模 块 中 最 简单 的 算法 ， 主 要 任务 是 处 理 来 自 队 列 的 虚拟 机 实例 相关 的 请 求 ， 然 后 决定 把 请 求 绑 定 在 哪个 节点 ， 会 涉及 调度 的 一 些 算法 问题 。 
6) 队列 (Queue) : 队列 是 各 个 守护 进程 之 间 传 递 消息 的 中 央 枢 纽 。Openstack 默 认 的 解决 方案 是 通过 RabbitMQ， 当 然 也 可 以 采用 其 他 AMQP 的 解决 方案 (诸如 Apache 的 QPID、zeromq) 。 


7) SQL 数 据 库 存储 云 基础 架构 绝 大 部 分 的 编译 和 运行 时 的 状态 。 这 包括 可 供 使 用 的 实例 类 型 、 正 在 使 用 的 实例 、 可 用 的 网 络 和 项 目 。 从 理论 上 来 讲 ，Openstack 可 以 支持 任何 SQL 的 数据 ， 但 是 目前 被 
广泛 使 用 的 数据 库 是 SQLite3、MySQL 和 PostgreSQL。 


8) Nova 还 和 其 他 一 些 Openstack 的 模块 交互 ， 比 如 针对 认证 的 keystone、 存 储 镜 像 的 Glance、 针 对 网 页 服务 的 Horizon。 和 Glance 的 交互 是 中 央 式 的 ， 该 API 程 序 可 以 上 传 和 查询 glance， 同 事 


Nova-compute 可 以 下 载 镜 像 进行 后 续 使 用 。 


9.3.3 ”Swift 对 象 仓储 


由 Swift 提供 ， 架 构 是 分 布 式 的 ， 为 了 防止 单 点 故障 以 及 提高 可 扩展 性 。 主 要 包括 以 下 模块 : 


1) Proxy server: 用 于 接收 通过 Openstack 对 象 API 或 者 HTTP 来 的 请 求 。 它 接收 处 理 文 件 的 上 传 、 元 数据 的 修改 以 及 容器 的 创建 。 此 外 ， 它 还 提供 通过 网 页 浏览 器 浏览 文件 和 容器 的 列表 。Proxy 
server 可 以 通过 使 用 一 个 可 选择 的 cache (通常 可 以 使 用 memcache 部 署 ) 来 提高 性 能 。 


2) Account server (账户 管理 器 ) : 用 于 管理 对 象 存储 服务 所 定义 的 账户 。 
3) Container server (容器 管理 器 ) : 用 户 管理 对 象 存储 服务 中 容器 的 映射 (例如 文件 夹 ) 。 
4) 其 他 一 些 周期 性 程序 : 在 大 型 数据 存储 上 执行 周期 性 的 维护 任务 。 最 重要 的 是 复制 服务 ， 通 过 集群 确保 一 致 性 和 可 用 性 。 常 用 的 一 些 周期 性 进程 包括 审计 程序 、 更 新 程序 以 及 回收 程序 。 


5) 有 关 对 象 存储 的 认证 服务 主要 通过 配置 WSGI 的 中 间 件 来 实现 ， 一 般 是 keystone。 


9.34 ”Glance 镜 像 存储 


Glance 的 架构 在 Cactus 版 本 之 后 就 一 直 比 较 稳定 。 架 构 上 最 大 的 变化 是 在 Diaobo 版 本 后 添加 了 相关 的 认证 。 总 体 来 说 Glance 由 4 部分 组 成 : 
1) Glance-API: 接收 镜像 相关 的 API 调 用 ， 诸 如 镜像 的 帮 现 、 获 取 和 人 存储 。 

2) Glance-registry: 人 存储、 处 理 以 及 获取 镜像 的 元 数据 ， 诸 如 大 小 、 类 型 等 。 

3) Database: 用 于 存储 镜像 的 元 数据 。 和 Nova 类 似 ， 可 以 自行 选择 数据 库 诸如 Mysql、sqlite。 


4) Storage repository: 用 于 存储 实际 的 镜像 。 在 图 9-17 中 ， 可 以 看 到 Swift 被 选 作 了 镜像 的 存储 ， 但 这 是 可 配置 的 。 除 了 Swift 之 外 ，Glance 还 支持 一 些 澡 用 的 文件 系统 ， 例 如 RBD、Amazon S3 
。 必 须要 注意 的 是 ， 有 些 解决 方案 只 支持 只 读 的 存储 。 
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5) 其 他 周期 性 服务 程序 : 如 复制 服务 用 于 保持 服务 器 的 一 致 性 和 可 用 性 。 其 他 的 服务 有 审计 程序 、 更 新 程序 、 回 收 程序 等 。 


9.3.5 KeyStone 身份 控制 


KeyStone 为 Openstack 的 策略 、 目 录 、token、 认 证 提供 了 单一 的 整合 方案 。 
1) Keystone 处 理 一 系列 的 API 请 求 ， 其 中 包括 提供 可 配置 的 目录 、 策 略 、token 以 及 相关 的 身份 服务 。 


2) Keystone 支 持 可 揪 拔 的 后 端 ， 这 样 就 允许 了 以 不 同 的 方法 来 使 用 特定 的 服务 。 常 用 的 后 端 支持 包括 LDAP、SQL 以 及 键 值 存储 。 


9.36 Quantum 网 络 


Quantum (Neutron) 在 Openstack 各 个 服务 之 间 提 供 了 网 络 连 接 作 为 一 个 服务 ， 主 要 是 针对 Nova 服 务 的 。 该 服务 允许 用 户 自行 建立 网 络 ， 并 且 把 建立 的 相关 网 络 接口 给 其 他 分 配 的 设备 。 和 其 他 
Openstack 的 服务 相 类 似 ，Quantum 也 是 可 配置 的 ， 可 以 使 用 不 同 的 第 三 方 插件 ， 这 些 插件 使 用 了 不 同 的 网 络 设备 和 软件 。 所 以 不 同 的 配置 ， 就 会 有 所 差别 。 图 9-17 提 供 了 一 个 简单 的 Linux 揪 件 。 
Quantum 主 要 有 以 下 几 个 组 件 : 


1) Quantum-server: 接收 相关 的 APl 请 求 ， 然 后 传递 给 合适 的 Quantum 插 件 进行 处 理 。 


2) Quantum 揪 件 和 代理 : 进行 以 下 相关 的 操作 ， 诸 如 网 络 端口 的 揪 拔 ,创建 网 络 、 子 网 和 IP 地 址 。 这 些 揪 件 都 是 不 同 的 ， 依 赖 于 不 同 提供 商 的 不 同 技术 方案 。Quantum 支 持 很 多 厂商 的 方案 ， 包 括 思 
科 的 虚拟 和 物理 交换 机 ，Nicira 的 NVP，NEC 的 openflow、OpenvSwitch、Linux 桥 接 等 。 


3) 通用 的 代理 : L3、DHCP 和 一 些 特 殊 的 插件 。 


9.37 ”Cinder 块 存储 


Cinder 主 要 把 以 前 Openstack 计 算 中 的 Nova-volume 功 能 剥离 出 来 ， 提 供 了 一 系列 块 存储 的 API 操 作 ， 人 允许 操作 卷 、 卷 的 类 型 以 及 卷 的 快照 。 


1) Cinder-API: 处 理 相 关 的 API 请 求 ， 并 把 请 求 转 到 Cinder-volume 进 行 相 关 的 处 理 。 


2) Cinder-volume: 通过 读 写 Cinder 的 数据 库 来 保持 状态 以 处 理 相 关 的 请 求 ， 和 其 他 进程 (比如 Cinder-scheduler) 通过 消息 队列 的 方式 进行 交互 ， 并 把 最 终 的 操作 落实 到 所 提供 的 块 设备 的 硬件 或 
者 软件 上 。 它 主要 通过 存储 服务 商 提 供 的 驱动 进行 操作 ， 现 在 支持 的 驱动 包括 1BM、NetAPP、linux iSCSI, 


3) Cinder-scheduler: 选择 最 合适 的 存储 节点 ， 然 后 创建 存储 卷 。 
Cinder 的 部 署 会 在 各 个 Cinder 进 程 之 间 使 用 到 消息 队列 机 制 ， 并 且 使 用 数据 库 来 存储 卷 的 状态 。 


从 功能 角度 来 讲 ，Openstack 的 针对 云 或 者 软件 定义 数据 中 心 的 解决 方案 略 显 稚嫩 ， 但 是 由 于 其 开放 性 ， 吸 引 了 众多 公司 和 开发 者 的 添砖加瓦 ， 因 此 以 后 的 发 展 未 可 限量 。 
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本 章 首先 介绍 了 实现 SDDC 解 决 方案 的 一 些 基本 要 素 : 软件 定义 化 资源 的 能 力 (诸如 软件 定义 的 计算 、 存 储 、 网 络 ) 、 软 件 协调 和 管理 平台 (包括 编排 和 自动 化 ) 、 丰 富 的 用 户 接口 〈 供 用户 定义 和 选 
HE) 以 构建 自己 的 数据 中 心 。 接 着 ,描述 了 分 别 使 用 VMware 和 OpenStack 的 解决 方案 实现 SDDC 的 示例 以 供 参 考 。 


第 10 草 云 仓 储 应 用 


云 存储 (或 者 叫 数据 存储 即 服务 ) 是 对 数据 存储 的 一 种 抽象 ， 它 有 一 个 接口 可 以 让 存储 按 需 管理 和 分 配 。 更 进一步 说 ， 这 类 接口 对 存储 的 位 置 进行 了 抽象 ， 因 此 存储 是 本 地 的 或 者 远程 的 并 不 是 很 重 
要 。 云 存储 的 基础 设施 引入 了 一 类 新 的 架构 ， 可 以 在 一 个 有 着 大 量 用 户 和 大 量 不 同 地 理 分 布 的 存储 上 面 支持 不 同 层次 的 服务 。 当 下 ， 数 据 正在 不 停 地 增长 。 同 时 ， 云 存储 也 获得 大 家 越 来 越 多 的 关注 和 支 


+ 
To 


云 存储 目前 的 主要 用 途 是 存储 非 结构 化 数据 ， 非 结构 化 数据 是 当前 发 展 最 快 、 容 量 最 大 、 对 管理 员 挑战 最 大 的 数据 。 然 而 它 并 不 太 适 合 于 结构 化 数据 ， 结 构 化 数据 还 是 适合 存储 在 传统 的 企业 数据 存储 


用 云 存 储 技术 来 存储 非 结 构 化 数据 所 带 来 的 好 处 是 非常 显著 的 。 首 先是 总 体 存 储 成 本 的 降低 。 通 过 利用 服务 提供 存储 ， 用 户 不 需要 购买 存储 硬件 ， 不 需要 管理 和 维护 成 本 ， 这 极 大 地 消除 或 降低 了 数据 
中 心 和 存储 管理 员 这 部 分 的 成 本 。 另 外 ， 云 存储 也 消除 了 昂贵 的 技术 更 新 成 本 。 传 统 情况 下 ， 在 购买 了 硬件 或 技术 的 三 到 五 年 后 ， 用 户 就 需要 购买 更 新 的 技术 来 应 对 新 的 需求 ， 这 是 一 笔 很 大 的 开销 。 


利用 云 存储 ， 可 以 减少 传统 存储 中 大 量 为 了 以 后 扩展 和 应 对 高 峰 负载 而 预 留 的 ， 但 是 大 部 分 时 间 却 未 能 被 有 效 利用 的 存储 ， 其 存储 利用 率 可 以 达到 近似 100%。 除 了 成 本 的 降低 ， 云 存储 还 有 极 强 的 可 扩 
展 性 以 及 有 能 力 对 用 户 透明 地 处 理 基础 负载 和 高 峰 负载 。 


本 章 将 首先 简单 介绍 云 存 储 的 典型 案例 ， 然 后 重点 讨论 云 存储 的 实现 和 模式 ， 最 后 介绍 主要 的 云 存储 服务 商 。 


10.1. 云 仓储 案例 


下 面 四 个 不 同 的 案例 可 以 用 来 展示 公有 云 存储 的 能 


1) 首要 存储 : 云 存储 可 以 用 来 提供 常常 处 于 活跃 状态 的 数据 存储 ， 也 可 以 提供 内 部 (On-Premises Storage) 存储 的 扩展 。 有 具体 实例 包括 : 员工 文件 共享 、 软 件 即 服务 Saas 应 用 数据 存储 、 虚 拟 服务 
环境 操控 数据 存储 。 首 要 存储 环境 可 以 包括 中 间 网 关 设 备 、 加 速 性 能 的 文件 系统 软件 ， 也 可 以 提供 数据 操控 以 及 多 用 户 同 步 功 能 。 首 要 存储 需要 方便 进行 访问 和 管理 ， 其 数据 弹性 和 内 部 存储 类 似 ， 但 是 成 
本 要 低 很 多 。 


2) 备份 存储 : 这 类 存储 提供 对 数据 的 保护 ， 和 传统 的 内 部 备份 环境 类 似 ， 但 其 存储 环境 是 公有 云 存储 。 备 份 环境 即 可 以 包括 运行 在 桌面 或 服务 器 上 的 代理 ， 又 可 以 包括 那些 通过 中 间 网 关 设 备 传递 备份 
数据 到 云 上 的 备份 服务 器 。 备 份 存储 需要 极 高 的 读 写 性 能 、 快 速 恢 复 、 合 规 以 及 弹性 的 管理 ， 这 些 和 传统 的 内 部 存储 类 似 ， 但 是 成 本 同样 低 很 多 。 


3) 归档 : 对 于 需要 长 时 间 存储 但 是 并 不 常 访问 的 数据 ， 需 要 进行 归档 存储 。 归 档 存储 环境 需要 应 用 能 够 管理 那些 去 存储 服务 所 提供 的 内 容 之 上 或 之 外 的 内 容 。 这 类 环境 通常 是 一 个 整合 软件 、 云 存储 、 
中 间 网 关 设 备 和 一 套 解 决 方案 。 归 档 环境 依赖 于 高 可 靠 性 和 可 用 性 并 且 成 本 低廉 的 数据 存储 ， 从 而 可 以 支持 长 时 间 的 存储 ， 并 且 可 以 满足 很 多 数据 旋转 的 策略 。 


4) 内 容 分 友 : 对 大 规模 分 散 的 消费 用 户 进行 分 发 数据 。 和 首要 数据 存储 类 似 ， 内 容 分 发 添加 了 数据 的 位 置 维度 ， 保 证 内 容 的 可 用 性 ， 并 且 需 要 同步 维护 分 散 的 数据 中 心 之 间 的 内 容 的 一 致 性 。 内 容 分 发 
对 数据 的 可 移动 性 以 及 数据 中 心 的 可 用 性 有 很 高 的 要 求 。 


10.2 云 行 储 实现 


目前 市 面 上 的 云 存 储 都 各 不 一 样 。 有 些 提供 商 主 要 关注 成 本 ， 另 外 一 些 提 供 商 更 关注 于 可 用 性 和 性 能 。 对 任 一 云 存 储 来 说 ， 都 实现 了 一 类 给 定 的 功能 特性 。 


离开 用 途 (Utility) 的 视角 来 谈论 架构 是 很 困难 的 。 对 于 一 个 系统 架构 来 说 ， 它 可 以 包括 以 下 特性 : 成 本 、 性 能 、 远 程 访问 等 。 因 此 ， 我 们 首先 定义 一 系列 的 衡量 云 存储 模型 的 评价 标准 ， 然 后 用 这 些 
标准 来 探索 目前 一 些 云 存储 架构 的 实现 。 


我 们 先 来 谈 一 谈 通用 的 云 存储 架构 ， 然 后 再 介绍 不 同 实现 里 面 一 些 独特 的 特性 。 
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图 10-1 通用 云 存 储 架 构 


云 存储 主要 是 在 一 个 高 度 可 扩展 和 多 租户 的 环境 里 面 按 需 分 配 存储 资源 。 图 10-1 是 云 存储 的 通用 架构 。 首 移 包 含 一 个 前 端 ， 用 户 可 以 通过 该 前 端的 API 访 问 存 储 。 在 传统 的 存储 系统 中 ， 这 类 API 通 常 是 
SCSI 协 议 ， 但 是 在 云 环境 中 ， 会 有 各 种 类 型 的 协议 。 因 此 ， 有 Web 服 务 前 端 、file-based 文 件 接口 前 端 ， 以 及 更 多 的 传统 前 端 (Internet SCS| 或 者 iSCSI) 。 在 前 端 之 后 的 是 一 层 中 间 件 叫 人 存储 逻辑 
(Storage Logic) 。 这 一 层 实现 了 很 多 功能 ， 比 如 复制 、 数 据 去 重复 、 数 据 放置 算法 。 最 后 ， 后 端 实现 了 数据 的 物理 存储 。 这 一 层 中 可 能 会 有 内 部 的 协议 来 实现 特定 功能 ， 也 可 以 是 接 到 物理 磁盘 上 的 传统 
后 端 。 


从 图 10-2 中 ， 我 们 可 以 看 到 当前 的 云 存储 架构 的 一 些 特性 。 这 些 特性 被 总 结 在 表 10-1 中 ， 
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表 10-1 云 存储 特性 

+e 性 描 述 

可 管理 性 用 最 少 的 资源 管理 系统 的 能 力 

存储 类 型 上 奔 层 存储 系统 的 类 型 

访问 方法 访问 云 存 储 的 相关 协议 

性 能 性 能 评价 比如 说 带宽 和 延 时 

多 租户 对 多 用 户 或 多 租户 的 支持 

( 5 ) 

+e d; 描 x 

可 扩展 性 系统 进行 扩展 从 而 满足 更 高 需求 的 能 力 

数据 可 用 性 对 系统 的 可 用 时 间 的 量度 

AY fe PE 对 系统 进行 控制 的 能 力 ， 特 别 的 ， 比 如 根据 成 本 、 人 性 能 进行 配置 的 能 力 
仔 储 效率 撒 层 存储 的 利用 和 效率 

成 本 存储 的 成 本 (通常 用 每 PB 存储 使 用 的 美元 来 衡量 ) 


10.2.1 可 管理 性 


对 云 存储 来 说 最 主要 的 是 成 本 。 如 果 一 个 客户 购买 并 人 在 本 地 管理 存储 和 成 本 与 在 云 上 差不多 ， 那 么 云 存储 就 没有 了 市 场 。 成 本 可 以 分 为 两 类 : 物理 存储 生态 系统 的 成 本 和 管理 该 系统 的 成 本 。 管 理 存 储 
是 隐藏 的 ， 但 是 代表 了 一 类 长 期 的 成 本 。 因 此 ， 云 存储 应 该 极 大 限度 地 自我 管理 。 下 面 两 个 能 力 是 至 关 重 要 的 : 当 引 入 新 存储 时 系统 可 以 自动 自我 配置 的 能 力 ， 找 到 系统 中 错误 并 能 自我 治愈 的 能 力 。 自 动 
计算 将 来 会 成 为 云 存 储 架构 的 关键 角色 。 


10.2.2 云 存储 系统 的 类 型 
目前 市 面 上 有 很 多 种 可 用 的 云 存 储 解决 方案 ， 如 何 选 择 正确 的 存储 是 非常 重要 的 。 每 一 类 存储 系统 都 各 有 利 次 。 对 实现 云 存 储 系统 来 说 ， 如 何 正确 选择 合适 的 底层 存储 系统 是 至 关 重 要 的 。 
1. 对 象 存储 系统 


对 象 存 储 系统 的 动机 十 分 简单 ， 即 让 存储 系统 做 更 多 的 MO 计算 ， 从 而 可 以 让 宿主 机 做 其 他 的 处 理性 工作 。 对 象 存 储 有 以 下 两 个 主要 特性 : 独立 的 对 象 和 可 扩展 的 元 数据 。 在 这 样 的 存储 系统 中 ， 数 据 是 
以 对 象 的 形式 进行 存储 和 检索 的 。 这 些 独立 的 对 象 被 一 个 全 球 的 句柄 标识 和 访问 。 这 个 句柄 可 以 是 一 个 键 值 、Hash 或 者 URL。 


2. 关 系数 据 库存 储 系 统 (RDS) 


关系 数据 库存 储 系统 可 以 将 资源 配置 、 扩 展 、 性 能 调 优 、 备 份 、 安 全 性 、 访 问 控制 这 些 操作 从 数据 库 用 户 转 到 服务 提供 商 这 边 ， 对 用 户 来 说 意味 着 更 低 的 成 本 。 因 此 ， 用 户 的 硬件 成 本 和 能 源 成 本 也 就 
更 低 。 因 为 他 们 只 需要 会 他 们 共享 服务 的 那 部 分 ， 而 不 是 自己 完全 运行 整个 系统 。 


3. 分 布 式 文件 存储 系统 


分 布 式 文件 存储 系统 允许 用 户 从 多 个 地 点 通过 计算 机 网 络 访问 文件 ， 因 此 多 个 用 户 或 机 器 之 间 可 以 共享 文件 或 者 存储 资源 。 客 户 节点 不 需要 直接 访问 底层 的 块 存储 ， 而 是 通过 网 络 和 中 间 层 进行 交互 。 
这 样 就 可 以 根据 访问 列表 或 者 能 力 来 限制 对 文件 系统 的 访问 ， 从 而 设计 相应 的 协议 。 


10.2.3 ”访问 方法 
云 存 储 和 传统 存储 最 显著 的 区 别 就 是 它 被 访问 的 方式 ( 见 图 10-3) 。 大 多 数 云 存 储 提供 商 实现 了 多 种 访问 方法 ， 在 这 里 面 通过 Web 服 务 API 进 行 访问 是 最 普遍 的 。 大 多 数 API 是 在 REsT 协 议 下 实现 的 ， 


也 就 是 说 在 HTTP 上 基于 对 象 开发 的 一 种 模式 。REST API 是 无 状态 的 ， 因 此 简单 有 效 。 大 多 数 云 存储 提供 商 实 现 了 REST API， 包 括 Amazon Simple Storage Service (Amazon S3) , Windows Azure 和 


Mezeo Cloud storage Platform。 


Network/Internet 


Web] 5 API 基于 文件 的 API 基于 块 的 API 其 他 API 
(ReST, SOAPS) | (NFS, CIFS、 FTP) .  G08CSD. ... (WebDAV) 
* Amazon S3 * Nirvanix SDN * CleverSafe * Zetta 
* Windows Azure + Zetta * Cloud Drive * Eonyte 
* Mezeo platform * [BM * Cleversafe 


E10-3 云 存 储 访问 方法 


云 服 务 API 的 一 个 问题 是 它们 需要 和 具体 的 利用 云 存储 的 应 用 进行 集成 。 因 此 ， 其 他 访问 方法 也 常 被 用 来 提供 即时 的 集成 。 举 例 来 说 ， 基 于 文件 的 协议 如 NFS/Common Internet File System (CIFS) 
或 FTP， 基 于 块 的 协议 如 iSCSI。 云 存储 提供 商 比如 Nirvanix、Zetta 和 Cleversafe 提 供 这 些 访问 方法 。 


尽管 上 面 提 到 的 方法 是 最 常用 的 ， 一 些 其 他 的 协议 也 适用 于 云 存 储 。 比 如 说 Web-based Distributed Authoring and Versioning (WebDAV) 。WebDAV 也 是 基于 HTTP， 并 且 使 得 Web 成 为 一 个 可 
读 并 可 写 的 资源 。Zetta 和 Cleversafe 提 供 了 WevDAV 这 种 方法 。 


很 多 解决 方案 支持 并 提供 了 多 种 访问 协议 。 比 如 说 ，IBM Smart Business Storage Cloud 在 同一 套 存储 虚拟 化 基础 设施 中 就 同时 提供 了 基于 文件 的 协议 (NFS、CIFS) 和 基于 SAN 的 协议 。 
10.2.4 性 能 


对 性 能 来 说 ， 有 很 多 方面 。 但 是 对 云 存储 来 说 ， 在 用 户 和 远程 的 云 存储 提供 商 之 间 传 递 数据 的 能 力 是 最 大 的 挑战 。 问 题 (tEXkInternetBSRsu) 在 于 TCP。TCP 控 制 数 据 的 流向 。 包 的 丢失 、 延 迟到 达 会 
启动 拥塞 控制 ， 会 很 大 程度 上 对 性 能 产生 影响 。TCP 协 议 适 合 于 在 全 局 网 络 中 传递 小 数据 ， 但 是 并 不 适合 传递 大 数据 迁移 ， 这 会 大 大 增加 RTT 的 时 间 。 


亚马逊 通过 Aspera Software 移 除了 TCP 协 议 从 而 解决 了 这 一 问题 ， 开 发 了 新 的 协议 叫做 the Fast and Secure Protocol (FASP) 来 加 速 在 大 RTT 和 大 量 包 丢失 环境 中 的 批量 数据 移动 。 这 个 协议 利用 了 
UDP 协 议 。UDP 协 议 允 许 宿主 机 来 管理 拥塞 ， 可 以 把 拥塞 管理 推 到 应 用 层 协 议 FASP ( 见 图 10-4) 。 


C lient 


图 10-4 Aspera 软 件 公司 的 快递 安全 协议 FASP 


利用 标准 的 NIC ( 非 加 速 ) ，FASP 有 效 地 利用 可 用 带宽 ， 移 除 批量 数据 传输 中 基本 的 瓶颈 。 


10.2.5 ”多 租户 


云 存储 架构 的 男 一 关键 特性 叫做 多 租户 (Multi-Tenancy) 。 可 以 简单 地 认为 存储 被 多 个 用 户 或 者 租户 使 用 。 多 租户 可 以 被 用 在 云 存储 stack 上 的 很 多 层 ， 从 应 用 层 (在 这 里 存储 的 命名 空间 对 不 同 用 户 
是 隔离 的 ) 到 存储 层 (在 这 里 物理 存储 对 某 些 特殊 用 户 是 隔离 的 ) 。 多 租户 甚至 可 以 应 用 到 连接 用 户 和 存储 的 网 络 基础 设施 上 ， 从 而 针对 特定 用 户 来 提供 不 同 的 服务 质量 和 带宽 。 


10.2.6 可 扩展 性 


可 扩展 存储 需求 的 能 力 (向 上 或 向 下 ) 意味 着 对 用 户 来 说 更 低 的 成 本 ， 对 云 存储 提供 商 来 说 更 强 的 能 力 。 


可 扩展 性 不 仅仅 针对 功能 性 的 扩展 ( 即 存储 本 身 ) ， 也 针对 负载 的 扩展 (Pia) 。 云 存储 的 另 一 关键 特性 即 数 据 的 地 理 分 布 地理 可 扩展 ) ， 人 允许 数据 选择 存储 在 离 用 户 最 近 的 云 存储 数据 中 心里 
面 。 对 于 只 读数 据 来 说 ， 数 据 复 制 和 分 布 在 云 数据 平台 上 也 成 为 可 能 ， 这 主要 通过 内 容 发 布 网 络 来 完成 。 


在 系统 内 部 ， 云 存储 基础 设施 必须 可 以 扩展 。 服 务 器 和 存储 必须 能 够 在 不 影响 用 户 的 情况 下 调整 大 小 和 容量 。 就 像 在 可 管理 性 那 一 小 节 所 讲 的 ， 自 动 计算 对 云 存 储 架 构 来 说 非常 重要 。 


10.2.7 可 用 性 


一 旦 云 存储 提供 商人 存储 了 用 户 的 数据 ， 它 就 必须 在 用 户 请 求 这 些 数 据 的 时 候 能 将 数据 发 给 用 户 。 因 为 网 络 中 断 、 用 户 错误 ， 以 及 其 他 事件 ， 对 用 户 提供 一 个 可 靠 稳定 的 服务 是 非常 困难 的 。 


目前 有 很 多 新 的 算法 和 系统 可 以 处 理 可 用 性 问题 ， 比 如 说 信息 分 散 。Cleversafe (一 个 提供 私有 云 存储 服务 的 公司 ) 使 用 信息 分 散 算法 IDA (Information Dispersal Algorithm) 来 提高 数据 的 可 用 


性 ， 尤 其 是 在 物理 故障 或 者 网 络 中 断 情况 下 。1DA 算 法 最 初 是 Michael Rabin 在 电信 系统 提出 的 。1DA 算 法 使 用 Reed-Solomon 码 对 数据 进行 分 片 ， 这 样 当 数据 丢失 时 可 以 进行 数据 重建 。1DA 算 法 允许 用 户 
自己 配置 数据 片 的 数据 。 这 样 一 个 给 定 的 数据 对 象 可 以 被 分 成 4 个 分 片 并 且 人 允许 一 个 分 片 丢 失 ， 也 可 以 分 成 20 个 分 片 并 且 人 允许 8 个 丢失 。 和 RAID 算 法 类 似 ，IDA 算 法 可 以 在 可 容忍 的 错误 数目 下 ， 从 原始 数据 
的 子 集中 重建 数据 。 具 体 参 见 图 10-5。 


Data slice 2 


Cloud site #2 


地 理 上 分 散 的 Cloud site 
图 10-5 ”Cleversafe 公 司 提 高 可 用 性 的 方法 


通过 对 数据 的 分 片 并 通过 Reed-solomon 码 进行 校 验 ， 数 据 分 片 可 以 被 分 发 到 地 理 分 散 的 存储 设备 上 。 对 分 片 数据 p 和 容忍 失败 性 m 来 说 ， 所 带 来 的 开销 是 P/ (p-m) 。 因 此 ， 在 图 10-5 的 例子 中 ， 这 
一 存储 系统 在 p=4 和 m=1 的 情况 下 的 开销 为 33%。 


1DA 算 法 的 一 个 缺点 是 它 的 计算 密集 但 是 不 能 利用 硬件 加 速 。 复 制 是 另 一 种 有 用 的 技术 ， 并 且 被 很 多 云 存储 提供 商 所 实现 。 尽 管 复 制 所 带 来 的 开销 超过 100%， 但 是 对 提供 商 来 说 这 种 方法 既 简 单 又 有 
效 。 
10.2.8 可 控 性 


客户 控制 和 管理 他 所 存储 的 数据 的 能 力 ， 以 及 这 种 能 力 所 带 来 的 成 本 是 非常 重要 的 。 很 多 云 存储 提供 商 对 用 户 提 供 了 低 成 本 的 高 可 控 能 力 。 
亚马逊 公司 实现 了 RRS (Reduced Redundancy Storage) ， 对 用 户 来 说 存储 成 本 被 大 大 降低 。 数 据 在 Amazon S53 基础 设施 里 进行 复制 ， 但 是 通过 RRS， 数 据 被 复制 的 次 数 降低 了 但 是 数据 丢失 的 可 能 
性 也 同时 降低 了 。 对 于 数据 可 以 被 重建 并 且 可 以 在 任意 地 方 存 在 复 本 的 情况 下 是 非常 理想 的 。Nirvanix 提 供 了 基于 策略 的 复制 协议 从 而 可 以 在 更 细 粒 度 下 控制 如 何以 及 在 哪里 存储 数据 。 


10.2.9 ”效率 


存储 效率 对 云 存 储 基 础 设施 来 说 也 很 重要 ， 特 别 是 在 总 体 成 本 固定 的 情况 下 。 这 关系 着 如 何 能 够 更 有 效 地 利用 可 用 的 存储 资源 。 


为 了 能 够 让 存储 系统 更 有 效 ， 我 们 应 尽量 存储 更 多 的 数据 。 目 前 普遍 的 做 法 是 对 数据 进行 压缩 (Data Reduction) ， 这 样 源 数 据 大 小 就 减 小 了 从 而 占有 更 少 的 物理 空间 。 目 前 有 两 种 办 法 可 以 完成 这 个 
功能 : 压缩 (Compression) 以 及 数据 去 重复 (De-Duplication) 。 压 缩 是 指 通过 对 数据 用 另外 一 种 方式 重新 编码 来 达到 数据 量变 小 的 目的 。 去 重 是 指 把 数据 里 面相 同 的 部 分 去 除 掉 。 尽 管 两 种 方法 都 很 有 
效 ， 但 是 压缩 更 多 涉及 计算 来 重新 对 数据 进行 编码 ， 而 去 重 涉及 计算 数据 签名 从 而 可 以 有 效 寻 找 重复 数据 。 


10.2.10 成 本 


云 存储 另外 一 个 值得 注意 的 特性 是 它 可 以 降低 成 本 的 能 力 。 这 些 成 本 包括 购买 存储 的 成 本 、 电 源 功 耗 成 本 、 硬 件 修复 成 本 以 及 存储 管理 成 本 。 但 我 们 从 成 本 、SLA 和 增加 存储 有 效 性 这 些 角度 来 看 云 存 
储 的 话 ， 云 存储 可 以 为 用 户 带 来 很 多 好 处 。 


下 面 介绍 一 下 Backblaze 公 司 。Backblaze 利 用 低廉 的 存储 对 外 提供 云 存 储 服 务 。Backblaze 的 POD 在 一 个 4U 的 服务 器 下 提供 67TB 的 存储 ， 成 本 只 有 8000 美 元 。 它 包括 一 个 4U 的 Enclosure， 一 个 主 
板 ，4GB 的 主 存 ，4 个 SATA 控 制 器 ，45 个 1.5TB 的 SATA 硬 盘 ，2 个 电源 。 在 主板 上 面 ，Backblaze 运 行 Linux 操 作 系统 和 GbE 的 NIC， 前 端 使 用 HTTPS 和 Apache Tomcat。Backblaze 的 软件 方案 包括 数据 去 
重复 、 加 密 和 RAID6 数 据 保 护 功 能 。 根 据 Backblaze 公 司 对 POD 的 说 明 ， 我 们 可 以 削减 存储 的 成 本 ， 让 云 存储 变 得 更 加 可 靠 和 和 有效。 


10.3 云 存 储 模 式 


到 目前 为 目 ， 我 们 主要 都 是 从 服务 提供 商 的 角度 来 介绍 和 讨论 云 存储 。 从 用 户 的 角度 来 说 ， 云 存储 已 经 演化 成 三 种 模式 : 公有 云 存 储 、 私 有 云 存储 及 混合 云 存 储 ( 见 图 10-6) 。 
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图 10-6 三 种 云 存 储 模式 


10.3.1 公有 云 存 储 


包括 AT&T、 亚 马 还 、 微 软 、Nirvanix、Rackspace、 百 度 、 金 山 、 腾 讯 、360、 阿 里 、 华 为 、 联 想 、 中 国 移动 等 在 内 ， 越 来 越 多 的 厂商 开始 提供 公有 云 存储 服务 。 这 些 厂 商 的 存储 基础 架构 通常 包含 低 
成 本 的 直 连 标准 化 量 产 (Commodity) 磁盘 的 人 存储 节点 和 基于 对 象 的 分 布 式 内 容 管理 软件 堆栈 。 保 存在 云 中 的 数据 一 般 通过 互联 网 协议 来 访问 ， 主 要 是 REST (Representational State Transfer) 和 
SOAP (Simple Object Access Protocol) 协议 。 人 存储 的 韧性 和 允 余 则 是 通过 将 每 个 对 象 存在 至 少 两 个 节点 上 来 实现 。 公 有 云 存 储 一 般 是 按 每 月 每 CB 的 单位 计 费 ， 有 的 服务 提供 商 可 能 会 收取 额外 的 数据 传 
输 和 访问 费用 。 

公有 云 存 储 多 用 于 大 规模 多 租户 的 场景 ， 并 为 每 个 租户 做 数据 、 访 问 和 安全 上 的 相互 隔离 。 人 存放 在 公有 云 的 数据 内 容 一 般 是 静态 的 非 核心 应 用 数据 ， 需 要 在 线 访问 的 归档 数据 以 及 备份 和 灾难 恢复 数 
据 ， 而 不 是 总 在 改变 的 活跃 数据 内 容 。 对 于 企业 用 户 来 说 ， 使 用 公有 云 存 储 的 主要 顾虑 在 于 数据 安全 性 ， 其 次 是 性 能 。 


10.32 MAZ 


内 部 或 锥 有 云 存储 运行 在 数据 中 心 内 的 专用 基础 架构 之 上 ， 很 大 程度 上 缓解 了 用 户 对 于 安全 性 和 性 能 的 顾虑 ， 并 且 能 提供 公共 云 存储 为 用 户 带 来 的 大 多 数 好 处 。 私 有 云 存储 通常 只 为 单 租户 提供 服务 ， 
不 过 大 型 企业 有 可 能 以 部 门 或 者 办 公 室 地 点 为 依据 划分 多 个 租户 。 有 别 于 公有 云 存储 ， 私 有 云 存储 对 可 扩展 性 的 要 求 适 中 ， 所 以 更 有 可 能 使 用 传统 存储 硬件 来 搭建 。 一 个 典型 案例 是 惠普 (HP) 公司 的 私有 
云 基础 架构 解决 方案 CloudStart， 它 集成 了 BladeSystem Matrix (惠普 的 storageWorks 企 业 虚 拟 阵列 (EVA) 系列 存储 阵列 和 云 服 务 自动 化 (CSA) 软件 ) 。CloudStart 本 身 并 不 是 一 个 完整 的 私有 云 存 
储 解 决 方案 ， 因 为 它 缺 乏 必 要 的 对 外 提供 服务 的 组 件 。 惠 普 的 合作 三 商 ， 甚 至 企业 自身 ， 都 可 以 利用 Cloudstart 来 搭建 完整 的 云 存储 产品 。 


私有 云 存 储 产 品 的 一 个 例子 是 日 立 数据 系统 云 服 务 (Hitachi Data Systems Cloud Service) ， 用 于 私有 文件 分 层 。 基 于 日 立 内 容 管理 平台 软件 (Hitachi Content Platform) ， 这 项 云 服 务 运行 在 客 
户 的 数据 中 心 内 ， 但 是 由 日 立 来 管理 和 控制 。 除 了 初始 配置 费用 ， 用 户 只 需 按 服务 使 用 量 付费 。 一 个 类 似 的 私有 云 存储 产品 是 Nirvanix 的 hNode， 它 基于 支撑 Nirvanix 存 储 交付 网 络 (Storage Delivery 
Network) 的 技术 ， 提 供 完 全 管理 的 、 按 需 付 费 的 数据 中 心 内 部 的 云 存储 服务 。 


10.3.3 RABE 
在 混合 云 存储 环境 中 ， 用 户 的 数据 被 分 散在 本 地 和 外 部 公有 云 存储 。 因 为 混合 云 存储 方案 通常 提供 一 个 现场 设备 ， 它 们 可 以 提供 本 地 高 速 缓存 和 内 存 ， 重 复数 据 删除 和 数据 加 密 。 


然而 ， 混 合 云 存 储 方案 必须 满足 一 些 特 定 的 要 求 。 从 用 户 的 角度 ， 混 合 云 存 储 必须 看 起 来 像 是 统一 的 存储 资源 池 ， 并 提供 相关 自动 化 机 制 使 得 活跃 的 和 经 常 访问 的 数据 被 存放 在 本 地 ， 同 时 不 活跃 的 数 
据 被 迁移 到 云端 。 而 这 种 自动 化 机 制 一 般 是 基于 规则 引 警 来 判断 何 时 需要 将 数据 从 云端 迁 入 迁 出 。 


10.3.4 三 种 云 存 储 模式 比较 


表 10-2 提 供 了 三 种 云 存储 模式 的 各 种 相关 属性 的 相互 比较 。 


表 10-2 三 种 云 存 储 模 式 比较 


i 性 公有 云 存 储 私有 云 存 储 混合 云 存储 
可 扩展 性 | 很 高 üt 


但 是 取决 于 服务 | 最 安全 ， 因 为 所 有 的 存储 都 是 | 很 安全 ， 公 有 和 私有 部 分 的 集成 
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很 低 ， 因 为 按 需 付费 的 | 好 ， 但 是 需要 本 地 资源 的 投入 ， 
成 本 模式 以 及 不 需要 在 本 地 部 | 比如 数据 中 心 空间 、 电 力 消 耗 以 比较 好 
蕴 专 用 基础 架构 及 设备 冷却 
每 种 云 存储 模式 都 有 各 自 的 优 缺 点 。 公 有 云 存储 具有 高 可 扩展 性 ， 但 是 在 性 能 上 有 短 板 。 私 有 云 存储 通常 具备 高 可 靠 性 ， 但 是 缺乏 高 可 扩展 性 。 混 合 云 存储 能 赋予 企业 更 多 的 控制 权 ， 但 是 成 本 比较 


高 。 对 于 一 个 组 织 机 构 来 说 ， 可 以 根据 它 的 特定 要 求 以 及 预算 来 选择 合适 的 云 存储 模式 。 


10.4 ”主要 云 存储 服务 提供 府 


10.4.1 企业 级 云 存 储 


1. 亚 马 逊 Web 服 务 (AWS) 


与 云 计算 的 其 他 很 多 方面 一 样 ， 亚 马 逊 Web 服 务 被 认为 是 云 存 储 市 场 的 领导 者 。AWS 的 价格 可 以 说 是 “行业 参照 点 。。 它 的 简单 存储 服务 (S3) 是 基本 的 对 象 存储 ， 而 弹性 块 存储 (EBS) 则 用 于 存储 
卷 。AWS 也 在 不 断 创新 。2012 年 ，AWS 发 布 了 一 个 长 期 、 低 价 的 文档 存储 服务 Glacier。 随 后 ，AWS 又 发 布 了 Redshift， 这 是 一 个 基于 云 的 数据 仓库 服务 。AWS 是 一 家 富 于 创新 的 企业 ， 在 不 断 地 推出 新 的 
产品 和 服务 ， 不 断 巩 固 它 已 有 的 市 场 领导 地 位 。 它 的 一 些 服务 如 GovCloud (政府 云 ) 服务 ， 面 向 一 些 特定 的 垂直 行业 ， 最 显著 的 就 是 联邦 政府 机 构 ， 这 些 服务 具有 云 存储 功能 与 服务 的 广度 和 深度 。 


2. 合 歌 云 存储 


2010 年 发 布 的 谷歌 云 存储 主要 为 该 公司 其 他 云 产 品 及 服务 一 一 包括 谷歌 App3 引 擎 (应 用 开发 平台 ) 、 人 谷歌 计 算 引擎 (基于 云 的 虚拟 机 ) 和 BigQuery (大 数据 分 析 工 具 ) 等 提供 基础 存储 服务 。 客 户 通 
过 APIl 访 问 谷歌 云 存 储 ， 该 服务 已 在 欧美 提供 。 谷 歌 的 云 存储 非常 适合 一 些 富 有 经 验 的 、 希 望 设置 并 管理 云 部 署 的 客户 ， 尤 其 是 一 些 为 谷歌 应 用 寻找 大 规模 存储 的 开发 人 员 。 
3. 微 软 


Gartner 预 测 ， 在 AWS 之 后 ， 微 软 的 Windows Azure Blob 和 存储 可 能 是 第 二 大 被 广泛 使 用 的 云 存储 服务 。 该 服务 如 今 已 有 超过 1 万 亿 个 对 象 ， 每 年 增长 200%， 并 可 支持 众多 的 存储 功能 ， 如 对 象 存 储 、 
表 存 储 、SQL Server 和 CDN。Azure 的 Blob 存 储 正在 与 亚马逊 “竞相 杀价 ”， 谷 歌 和 微软 在 过 去 一 年 中 一 直 在 降低 服务 价格 ， 提 供 更 具 竞 争 力 的 价格 。 微 软 最 近 还 收购 了 云 存储 网 关 厂 商 StorSimple， 扩 充 
了 它 的 存储 产品 线 。 


4.Nirvanix 

作为 一 家 纯粹 的 云 存储 提供 商 ，Nirvanix 只 专注 这 个 市 场 。 它 只 寻找 数据 密集 存储 需求 是 优点 ， 但 对 于 寻找 一 站 式 服务 厂商 的 客户 来 说 则 是 一 种 缺点 ， 因 为 后 一 种 厂商 能 够 在 存储 平台 上 提供 计算 服 
务 。Nirvanix 的 产品 有 一 些 吸引 客户 的 特征 ， 包 括 可 跨 公 有 云 、 私 有 云 或 混合 云 提供 的 存储 服务 ， 以 及 套餐 式 的 按 月 计 费 高 级 支持 选项 ， 其 目标 客户 显然 是 企业 客户 ， 但 这 却 有 可 能 错过 中 小 企业 客户 ， 
为 后 者 可 能 更 喜欢 随意 点 菜 式 的 定价 。 


5.Rackspace 


Rackspace 是 云 存 储 生 态 系统 圈 内 的 另 一 家 主要 厂商 ， 其 CloudFiles 服 务 还 包含 一 组 健壮 的 服务 组 合 ， 如 由 Akamai 提 供 支 持 的 计算 基础 设施 和 CDN 网 络 。 对 于 高 性 能 存储 需求 而 言 ， 它 有 具备 高 输入 输 
出 能 力 的 CloudBlock 存 储 。Rackspace 对 OpenStack 开 源 项 目的 贡献 巨大 ， 其 服务 紧 紧 跟随 着 OpenStack 的 发 展 步伐 。 由 于 其 研发 都 在 OpenStack 环 境 中 进行 ， 所 以 Rackspace 的 公有 云 存储 服务 能 够 很 
好 地 与 OpenStack 的 私有 云集 成 ， 为 客户 构建 混合 云 服务 。 


10.4.2 个 人 云 存 储 


个 人 云 存储 (Personal Cloud Storage) 是 通过 Internet 上 传 、 下 载 和 共享 个 人 文件 的 一 种 服务 ， 通 常 称 为 网 络 U 盘 、 无 线 U 盘 等 。 作 为 云 计算 的 重要 应 用 ， 个 人 云 存 储 已 经 逐渐 走 进 人 们 的 生活 ， 并 受 
到 广泛 关注 。 无 论 是 网 盘 类 云 存 储 还 是 笔记 类 云 存储 ， 其 精彩 程度 都 远 远 超出 人 存储 的 界限 。 云 存储 的 大 发 展 既 有 大 数据 爆发 的 推动 ， 也 得 益 于 移动 终端 和 移动 互联 网 的 高 速 发 展 及 云 计算 技术 的 逐步 成 熟 。 
随 着 越 来 越 多 的 软件 和 数据 加 速 迁移 到 “云端 ”， 个 人 云 取代 电脑 本 地 存储 的 趋势 日 渐 明 朗 。 


个 人 云 存 储 市 场 有 众多 竞争 厂商 。 国 外 的 厂商 有 Dropbox、Box、 亚 马 逊 、 苹 果 、 谷 歌 、 微 软 、EMC 等 。 国 内 的 厂商 有 百度 、 金 山 、 腾 讯 、360、 阿 里 、 华 为 、 联 想 、 中 国 移动 等 。 
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熟 ， 但 仍然 面临 很 多 问题 和 挑战 。 随 着 虚拟 化 、 软 件 定义 等 技术 和 概念 的 成 熟 ， 使 用 Hadoop 构 建 虚 拟 化 的 大 数据 平台 ， 将 大 数据 和 虚拟 化 结合 成 为 新 的 热点 。 本 章 将 结合 产品 实例 ， 为 读者 介绍 虚拟 化 在 


大 数据 平台 上 的 应 用 。 


11.1 概述 

Hadoop 是 一 个 为 了 处 理 海量 数据 而 开发 的 、 以 分 布 式 系统 为 基础 的 开源 架构 。 用 户 可 以 在 不 了 解 分 布 式 底层 细节 的 情况 下 ， 开 发 分 布 式 程序 并 对 大 数据 进行 处 理 ， 从 而 充分 利用 集群 的 威力 高 速 运算 
和 人 存储 。Hadoop 拥 有 很 多 无 法 比拟 的 优势 。 

. 高 可 靠 性 。 通 过 高 可 用 性 (High Availability) 、 联 动 (Federation) 等 机 制 解决 断 网 、 服 务 器 断 电 、 服 务 停止 所 带 来 的 单 点 失效 问题 。 


` 高 扩展 性 。Hadoop 通 过 将 存储 和 计算 分 发 到 不 同 的 节点 来 达到 并 行 的 效果 。 用 户 可 以 根据 需要 任意 增加 或 删除 一 定数 量 的 数据 节点 以 达到 性 能 上 的 要 求 ， 最 后 只 需要 重新 平衡 数据 。 这 种 节点 的 增加 
或 删除 可 以 是 动态 的 ， 也 就 是 说 节点 是 支持 热 部 署 的 。 这 种 扩展 性 完全 优 于 传统 数据 库 ， 而 对 于 MPP 数 据 库 ， 其 节点 支持 的 数量 也 是 高 几 个 数量 级 的 。 


高 效 性 。Hadoop 处 理 数据 尽量 使 用 “本 地 ”数据 ， 用 于 数据 处 理 的 工具 通常 与 数据 位 于 相同 的 节点 上 ， 从 而 能 够 更 快 地 处 理 数据 。MapReduce 计 算 框 架 能 够 保证 对 于 可 以 并 行 的 算法 和 计算 完全 并 行 
处 理 ， 这 意味 着 Hadoop 只 需要 增加 节点 就 可 以 处 理 更 多 的 数据 或 者 获得 更 快 的 速度 ， 经 典 的 TeraSort 排 序 算 法 对 1TB 数 据 进行 排序 也 只 需要 几 十 秒 。 


- 高 容错 性 。Hadoop 能 够 为 存储 在 HDFS 上 的 数据 自动 保存 多 份 副本 ， 默 认 值 是 3， 并 且 能 够 自动 将 失败 的 任务 重新 分 配 。 
- 处 理 数据 多 样 化 。Hadoop 可 以 处 理 不 同 结构 的 数据 ， 包 括 结 构 化 、 半 结构 化 和 非 结 构 化 。 
不 过 ,传统 的 企业 数据 中 心 要 想 高 效 地 使 用 Hadoop 也 面临 着 很 多 挑战 。 


. 搭建 成 本 高 晶 。 虽 然 Hadoop 本 身 号 称 可 以 运行 在 任何 普通 的 PC 上 ， 但 如 果真 正 想 搭建 企业 级 的 数据 中 心 ， 硬 件 上 的 一 次 性 投入 还 是 比较 巨大 的 。 而 且 这 里 讲 的 成 本 不 仅 包括 资金 上 的 成 本 ， 还 包括 机 
房 、 电 力 等 资源 。 并 且 随 着 集群 数量 的 增长 ， 这 些 资源 消耗 和 运 维 成 本 都 将 呈 指 数 级 增长 。 


.部署 和 维护 复杂 。 对 于 没有 或 者 只 有 很 少 部 署 Hadoop 集 群 经 验 的 工程 师 来 说 ， 搭 建 Hadoob 集 群 是 一 件 既 费时 又 费力 的 工作 ， 往 往 需要 用 天 来 计算 工作 量 。 由 于 经 验 的 缺失 ， 系 统 调 优 也 将 会 十 分 困 
难 。 因 为 使 用 默认 配置 ， 往 往 不 能 满足 真实 业务 的 需要 。 同 样 ， 随 着 集群 数量 的 增长 ， 出 现 问题 的 几率 会 大 大 增加 ， 不 得 不 请 专门 的 运 维 工程 师 24 小 时 待命 。 


- CPU 和 存储 等 资源 利用 效率 低下 。Hadoop 集 群 中 ， 对 于 很 多 独立 的 主机 ， 其 CPU 使 用 率 往 往 只 有 20%~30%， 而 且 Hadoop 和 非 Hadoop 负 载 不 能 直接 共享 资源 ， 缺 乏 资源 管控 。 


| 单 点 失效 。 众 所 周知 ，Hadoop 的 NameNode 和 JobTtacketr 存 在 单 点 失效 的 问题 ，Hadoop 本 身 也 采取 不 同 的 措施 来 解决 这 一 问题 ， 包 括 HA、Federation 等 。 但 很 多 相关 非 核心 Hadoop 模 块 如 Hive、 
HCatalog、Pig、Zookeepet 没 有 HA 保障 。 


- 需要 多 租户 隔离 。 不 同 部 门 可 能 需要 各 自 的 Hadoop 集 群 ， 但 不 同 用 户 间 缺乏 足够 的 性 能 和 安全 隔离 机 制 ， 无 法 实现 配置 隔离 。 
因此 ， 可 以 党 试 使 用 虚拟 化 解决 以 上 问题 ， 虚 拟 化 Hadoop 数 据 中 心 拥 有 以 下 优点 : 


. 价格 相对 低廉 。 使 用 虚拟 化 构建 数据 中 心 会 节省 大 量 物理 资源 ， 包 括 主机 、 机 房 空间 、 机 柜 、 耗 电 、 冷 气 以 及 人 力 资 源 。 如 果 选 择 云 的 方式 ， 租 用 AWS EMR (下 文 会 详细 介绍 ) 大 数据 平台 ， 其 总 拥 
有 成 本 与 传统 数据 中 心 相 比 也 是 较 低 的 。 


. 快速 搭建 、 部 署 Hadoop 集 群 。 借 助 虚拟 机 快照 、 模 板 、 资 源 动态 分 配 等 机 制 ， 可 以 大 大 提高 Hadoop 集 群 的 搭建 、 部 署 时 间 。 比 如 VMware 发 布 的 Setengeti (下 文 会 详细 介绍 ) 使 项 目 部 署 时 间 从 天 级 
降 到 分 钟 级 。 


- 为 Hadoop 提 供 高 可 用 和 容错 能 力 。 虚 拟 化 技术 本 身 己 经 十 分 成 熟 ， 其 自身 高 可 用 和 容错 能 力 可 以 为 Hadoop 提 供 额 外 的 高 可 用 和 容错 保护 。 


. 大 幅 提 升 Hadoop 资 源 利 用 率 。 很 容易 理解 ， 将 3~4 人 台 CPU 利 用 率 只 有 20%~30% 的 物理 机 平移 到 一 台 虚 拟 机 上 ，CPU 利 用 率 会 提高 2~3 倍 。 提 高 资源 利用 率 的 最 大 好 处 就 是 降低 运营 成 本 ， 这 是 所 有 公 
司 都 乐于 看 到 的 。 


多 租户 隔离。 通过 虚拟 化 的 隔离 能 力 ， 为 不 同 部 门 提供 Hadoop 的 计算 能 力 ， 又 不 互相 干扰 和 影响 ， 在 安全 上 也 得 到 保证 。 
当然 ， 任 何 技术 的 出 现 都 会 引 来 质疑 ， 业 界 对 虚拟 化 构建 Hadoop 大 数据 平台 的 质疑 包括 : 


本 地 磁盘 。 本 地 磁盘 是 否 可 以 用 于 虚拟 化 环境 。 有 一 种 观点 认为 Hadoop 不 适合 在 虚拟 化 平台 上 运行 ， 理 由 是 Hadoop 的 特点 是 在 本 地 磁盘 上 运行 ， 而 虚拟 化 都 是 在 共享 磁盘 上 ; 虚拟 机 增加 了 额外 开 
销 ， 在 虚拟 机 上 运行 Hadoop 性 能 会 变 慢 。 实 际 上 ， 多 数 人 知道 vSphere 的 工作 模式 是 将 数据 存储 到 共享 磁盘 ， 其 实 vSphere 也 支持 本 地 磁盘 ， 这 完全 取决 于 用 户 的 应 用 场景 。 随 着 高 带宽 网 络 的 应 用 ， 比 如 
10GB Ethernet、PoE， 以 及 iSCSTI， 这 些 担 心 都 应 该 不 是 问题 了 。 


“ 灵活 性 和 可 扩展 性 。 如 何在 集群 和 不 同 的 应 用 程序 之 间 灵 活 调度 资源 。 

- 数据 稳定 。 虚 拟 环 境 中 ， 如 何 才能 将 数据 跨 主 机 和 机 架 分 发 。 

: 数据 本 地 化 。Hadoop 会 调度 计算 任务 附近 的 数据 ， 以 减少 发 生 在 数据 读 写 上 的 网 络 I/O。 在 虚拟 化 环境 下 是 否 可 以 达到 同样 的 效果 。 
性能。 虚拟 化 环境 下 的 性 能 如 何 。 

C 总 拥有 成 本 (TCO) 。 虚 拟 化 使 用 大 数据 平台 到 底 会 不 会 节省 成 本 。 


以 上 从 概念 上 介绍 了 使 用 虚拟 化 构建 大 数据 平台 的 原因 以 及 可 能 面临 的 挑战 ， 下 面 结合 两 个 真实 的 产品 案例 ， 相 对 直观 地 为 大 家 介绍 大 数据 虚拟 化 平台 的 优点 和 以 上 提 到 的 一 些 问题 。 


11.2 VMware Serengeti 


据 了 解 ， 从 2012 年 年 初 ， VMware 就 与 Apache Hadoop 社 区 展开 合作 ， 开 始 推广 一 个 开源 项 目 一 一 Serengeti， 通 过 把 Apache Hadoop 节 点 从 底层 物理 基础 架构 剥离 ，VMware 可 以 将 云 基础 架构 的 
优势 带 给 Hadoop， 利 用 VMware 的 vsphere 平 台 在 几 分 钟 之 内 快速 部 署 高 可 用 的 Hadoop 集 群 。 通 过 使 用 VMware 的 vSphere 平 台 上 的 Serengeti， 企 业 用 户 可 以 简单 方便 地 利用 值得 信赖 目 运用 广泛 的 虚 
拟 化 平台 提供 的 高 可 用 性 、 最 佳 资 源 利 用 率 、 灵 活 和 安全 多 租户 等 功能 来 确保 Hadoop 集 群 的 可 用 性 和 可 管理 性 。Serengeti 提 供 了 对 多 个 主流 版 本 Hadoop 的 支持 ,包括 Apache Hadoop, Cloudera, 
Pivotal HD 和 Hortonworks。Serengeti 的 开放 架构 使 其 很 容易 支持 其 他 的 Hadoop 版 本 。Serengeti 拥 有 以 下 优点 : 


1. 快 速 部 署 ， 易 于 维护 、 扩 展 


上 文 提 到 过 ， 部 署 和 构建 Hadoop 集 群 是 一 件 费时 费力 的 工作 ， 人 力 的 消耗 往往 以 小 时 甚 全 天 来 计算 。 而 Serengeti 可 以 通过 简单 的 命令 行 操作 ， 在 几 分 钟 内 部 署 高 度 可 用 的 Hadoop 集 群 ， 包 括 
Apache Pig 和 Apache Hive 等 常见 的 Hadoop 组 件 。 


2. 高 可 用 和 容错 能 


高 可 用 性 是 确保 公司 中 一 个 或 者 多 个 关键 应 用 的 本 地 服务 持续 性 的 一 组 机 制 (如 图 11-1 所 示 ) 。 众 所 周知 ，Hadoop 由 于 单 点 失效 ， 在 可 用 性 上 一 直 存 在 问题 。 尽 管 Apache 社 区 已 经 发 布 了 HA 的 功 
能 ， 但 也 仅仅 是 NameNode 上 的 HA， 其 他 相关 非 核心 Hadoop 模 块 如 Hive、HCatalog 等 并 没有 HA 保障 。 而 Serengeti 是 基于 VMvare vSphere 的 ， 由 于 vSphere 的 HA、FT、VMeotive 等 高 级 特性 ， 提 供 
99% 以 上 级 别 的 服务 持续 性 比 物理 环境 要 容易 得 多 ， 其 为 Hadoop 提 供 了 易于 配置 的 、 可 供用 户 选择 不 同等 级 的 高 可 用 性 和 容错 能 力 。 
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图 11-1 Hadoop 集 群 的 高 可 用 性 
(1) VMware vMotion 降 低 计划 死机 时 间 


实时 迁移 功能 (vMotion) 可 以 在 不 停机 的 情况 下 将 正在 运行 的 整个 虚拟 机 从 一 台 物 理 服务 器 移动 到 另 一 台 物 理 服务 器 。 虚 拟 机 会 保留 其 网 络 标识 和 连接 ， 从 而 确保 实现 无 颖 的 迁移 过 程 。 整 个 过 程 在 
干 兆 位 以 太 网 上 只 需 不 到 两 秒 的 时 间 。 


对 于 生产 环境 中 的 Hadoop 集 群 来 说 ， 无 论 是 操作 系统 的 重启 还 是 服务 器 、 路 由 器 等 硬件 的 更 新 ， 都 会 带 来 集群 的 暂时 关闭 。 这 些 计划 内 的 死机 往往 要 持续 几 分 钟 甚至 几 小 时 ， 显 然 ， 这 是 很 难 接受 
的 。 实 时 迁移 功能 可 以 通过 热 迁 移 很 好 地 解决 这 一 问题 。 


(2) VMware HA 减少 非 计 划 有 死机 时 间 


HA 可 以 提供 虚拟 机 中 运行 的 大 多 数 应 用 所 需 的 可 用 性 ， 并 且 不 依赖 于 其 中 运行 的 操作 系统 和 应 用 程序 。HA 可 针对 虚拟 化 IT 环境 中 的 硬件 和 操作 系统 停机 ， 提 供 统一 上 且 经 济 高 效 的 故障 切换 保护 。 依 赖 
于 操作 系统 或 应 用 的 可 用 性 解决 方案 需要 进行 复杂 的 设置 和 配置 ， 相 比 之 下 ，HA 的 配置 只 需 在 vSphere Client 界 面 中 单 击 一 下 即 可 完成 。HA 配 置 过 程 简单 且 所 需 的 资源 最 少 。 


HA 可 以 监控 vsphere 主 机 和 虚拟 机 ， 以 检测 到 硬件 和 客户 操作 系统 故障 ; 一 旦 发 现 服务 器 停机 ， 无 需 手 动 干预 即 可 在 集群 中 的 其 他 vsphere 主 机 上 重新 启动 虚拟 机 ; 一 旦 发 现 操作 系统 故障 ， 可 通过 自 
动 重新 启动 虚拟 机 来 减少 应 用 中 断 时 间 。 


硬件 或 操作 系统 上 的 问题 有 可 能 导致 NameNode 的 故障 ， 这 种 问题 并 不 常见 但 总 是 无 法 预料 的 。HA 能 自动 检测 任何 硬件 或 者 虚拟 机 上 的 故障 ， 而 无 需 任 何人 为 干预 。 
(3) vSphere Fault Tolerance 提 供 持续 性 保护 


Fault Tolerance (FT) 通过 创建 始终 与 主 虚拟 机 保持 同步 的 虚拟 机 实时 卷 影 实例 ， 使 应 用 在 服务 器 发 生 故 障 的 情况 下 也 能 够 持续 可 用 。 一 旦 出 现 硬件 故障 ，FT 就 会 自动 触发 故障 转移 ， 确 保 零 停机 并 防 
止 数据 丢失 。 故 障 转移 完毕 ，FT 会 自动 创建 一 个 新 的 辅助 虚拟 机 为 应 用 提供 持续 保护 (如 图 11-2 所 示 ) 。 
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图 11-2 VMwate 提 供 的 FT 解决 方案 


3.Hadoop 虚 拟 化 扩展 技术 


Hadoop 虚 拟 化 扩展 技术 (Hadoop Virtualization Extension, HVE) 是 用 来 扩展 Hadoop 的 拓扑 感知 机 制 。 它 的 目的 是 提高 虚拟 化 的 Hadoop 集 群 扩展 拓扑 层 并 且 细 化 本 地 相关 政策 的 可 靠 性 和 性 
能 。 对 Hadoop 计 算 层 的 扩展 ， 通 过 增加 Hadoop 垂 直 扩展 和 水 平 扩展 的 动态 性 ， 配 合资 源 共 享 ， 最 终 达 到 优化 资源 利用 的 目的 。 


通常 情况 下 ， 我 们 为 了 保证 Hadoop 集 群 数据 本 地 化 (Data Locality) 的 需要 ， 会 将 存储 (DataNode) 和 计算 (TaskTracker) 服务 部 署 在 相同 节点 上 。 这 样 ， 在 使 用 Hadoop 的 时 候 有 大 量 的 节点 ， 
使 用 本 地 存储 可 以 得 到 线性 扩展 ， 费 用 更 低 。 但 是 当 计算 能 力 不 足 需要 扩容 时 ， 增 加 计算 节点 的 同时 也 必须 增加 存储 节点 。 因 此 存储 和 计算 绑 定 模型 下 ， 对 于 存储 和 计算 节点 的 扩容 必须 同时 进行 ， 无 法 灵 
活 定 制 ， 这 难免 会 造成 计算 或 存储 资源 的 浪费 。 


如 图 11-3 所 示 ， 为 了 对 计算 和 存储 进行 分 离 ， 以 达到 灵活 或 扩容 的 目的 ， 我 们 需要 将 存储 (DataNode) 和 计算 (TaskTracker) 服务 等 分 开 部 署 在 不 同 的 节点 上 。 这 样 似乎 就 出 现 了 一 组 矛盾 ， 纯 粹 的 
分 离 模型 并 不 能 保证 传统 的 Hadoop 数 据 本 地 性 特性 。HVE 技 术 解决 了 这 一 问题 ， 用 户 可 以 指定 将 独立 的 计算 节点 虚拟 机 部 署 在 存储 节点 所 在 的 物理 主机 (Host) 上 ， 这 样 ， 虽 然 逻 辑 上 计算 节点 已 经 和 存 
储 分 离 了 ， 但 在 物理 上 它们 仍然 处 于 同一 主机 上 ， 从 而 避免 了 其 间 的 通信 经 过 网 络 ， 这 就 是 虚拟 化 的 威力 。HVE 功 能 会 使 得 Hadoop 自 身 对 虚拟 化 架构 感知 ， 能 够 配合 数据 本 地 化 的 策略 进行 计算 任务 的 调 
度 。 
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图 11-3 ”Hadoop 虚 拟 化 的 演变 


图 11-4 展 示 了 HVE 的 整体 架构 。 


(1) 网 络 拓扑 扩展 


Tr fi 13 A 


传统 的 Hadoop 集 群 部 署 会 分 布 在 很 多 机 架 上 ， 不 同 节点 之 间 的 通信 能 够 尽量 发 生 在 同一 个 机 架 之 内 ， 而 不 是 跨 机 架 。 并 且 为 了 提高 容错 能 力 ， 名 称 节点 会 尽 可 能 把 数据 块 的 副本 放 到 | 多 个 机 架 上 。 这 


就 是 Hadoop 的 机 架 感知 机 制 (Rack Awareness) 。 


mw] o 


如 图 11-6 所 示 ， 和 传统 的 拓扑 结构 不 同 ，HVE 引 入 了 新 的 概念 一 数据 组 (Node Group, NG1, NG2....) 。 数 据 组 层 是 虚拟 层 ， 所 有 在 同一 数据 组 下 的 虚拟 机 都 


数据 组 上 的 感知 技术 ，HVE 可 以 改善 数据 本 地 化 策略 ， 从 而 在 虚拟 环境 下 优化 性 能 。 


plica Choosing Policy Extension 


lica Placement Polic | Extension 
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图 11-5 ”传统 Hadoop 集 群 的 网 络 拓扑 结构 
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图 11-6 ”虚拟 化 Hadoop 集 群 的 网 络 拓扑 结构 
(2) HDFS 策 略 扩 展 
HDFS 策 略 扩 展 包括 副本 放置 /删除 策略 扩展 、 副 本 选择 策略 扩展 和 平衡 器 策略 扩展 。 
1) 副本 放置 /删除 策略 扩展 。 传 统 的 副本 放置 策略 遵循 以 下 规则 : 
“ 多 个 副本 不 能 放置 于 同一 节点 。 
` 第 1 个 副本 放置 于 本 地 节点 。 
第 2 个 副本 放置 于 和 第 1 个 副本 不 同 的 机 架 。 
* 第 3 个 副本 放置 于 和 第 2 个 副本 相同 的 机 架 。 
| 其 余 的 副本 在 遵循 以 下 限制 的 前 提 下 随机 放置 : 1 个 节点 最 多 放置 1 个 副本 ; 如 果 副 本 数 少 于 2 倍 机 架 数 ， 不 可 以 在 同一 机 架 放置 超过 2 个 副本 。 


如 果 将 以 上 策略 用 于 虚拟 化 集群 的 部 署 ， 可 能 会 出 现 一 些 问题 。 如 图 11-7a 所 示 ， 人 在 不 用 HVE 的 情况 下 ， 副 本 1 放置 在 Host-1 的 2 号 节点 上 ， 副 本 2 放置 在 和 副本 1 不 同 机 架 的 Host-4 的 1 号 节点 上 ， 副 本 3 
放置 在 和 副本 2 相同 机 架 的 Host-4 的 2 号 节点 上 ， 在 物理 机 集群 部 署 时 ， 这 种 情况 不 会 发生 ， 因 为 一 个 节点 最 多 放置 一 个 副本 。 而 在 虚拟 情况 下 ，Host-4 上 不 同 的 虚拟 节点 会 被 分 配 多 个 副本 ， 这 是 符合 放置 
策略 的 ， 但 问题 显而易见 。 鉴 于 此 ，HVE 引 入 了 新 的 放置 策略 : 


多 个 副本 不 能 放置 于 同一 节点 或 者 同一 节点 组 。 
. 第 1 个 副本 放置 于 本 地 节点 或 本 地 节点 组 。 

第 2 个 副本 放置 于 和 第 1 个 副本 不 同 的 机 架 。 

* 第 3 个 副本 放置 于 和 第 2 个 副本 相同 的 机 架 。 


“ 其 余 的 副本 在 遵循 以 下 限制 的 前 提 下 随机 放置 : 1 个 节点 或 节点 组 最 多 放置 1 个 副本 ; 如 果 副 本 数 少 于 2 倍 机 架 数 ， 不 可 以 在 同一 机 架 放置 超过 2 个 副本 。 


引入 了 新 的 放置 策略 后 ， 副 本 放置 如 图 11-7b 所 示 : 副本 3 不 和 副本 2 放置 于 同一 节点 组 下 ， 从 而 避免 了 同一 节点 死机 导致 多 个 副本 失效 的 可 能 。 
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图 11-7 HVE 副 本 放置 策略 


2) 副本 选择 策略 扩展 。 副 本 选择 策略 是 指 HDFS 客 户 端 会 选取 最 近 的 副本 以 求 达到 最 优 的 数据 读 取 吞吐 量 。 该 策略 基于 对 网 络 拓 扑 图 上 每 个 副本 和 客户 端 距 离 的 排序 结果 。 在 传统 物理 机 部 署 的 情况 
下 ,不 同 的 距离 分 别 为 本 地 节点 0， 本 地 机 架 2， 远 端 机 架 4。 在 HVE 引 入 节点 组 的 概念 以 后 ， 不 同 的 距离 分 别 为 本 地 节点 0， 本 地 节点 组 2， 本 地 机 架 4， 远 端 机 架 6。 


如 图 11-8 所 示 ， 如 果 没 有 HVE，HDFS 客 户 端 选取 副本 2 和 副本 3 作为 副本 的 概率 是 相同 的 ， 它 们 都 属于 本 地 机 架 上 的 不 同 节 点 ， 距 离 为 2， 尽 管 副 本 2 跟 客户 端 在 同一 物理 机 上 。 在 引入 HVE 以 后 ,副本 2 
会 被 客户 端 选 择 作为 副本 ， 因 为 副本 2 距离 客户 端的 距离 更 近 (2 比 4) 。 这 样 无 疑 会 带 来 更 好 的 数据 读 取 吞吐 量 。 
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图 11-8 HVE 副 本 选择 策略 


3) 平衡 器 策略 扩展 。 平 衡器 策略 是 指 Hadoop 将 某 些 高 使 用 率 的 副本 转发 到 低 使 用 率 副 本 上 的 机 制 。 其 包含 了 两 个 层面 的 规则 : 在 节点 层面 ， 参 与 转发 的 节点 对 其 间 的 网 络 占 用 要 尽 可 能 小 ;在 副本 层 
面 ， 在 不 违反 副本 放置 策略 的 情况 下 ， 它 会 检查 所 有 合格 的 副本 。 


随 着 HVE 引 入 节点 组 概念 ， 平 衡器 策略 在 原 有 的 基础 上 有 了 新 的 扩展 。 在 节点 层面 ， 选 择 目标 节点 遵循 以 下 顺序 : 本 地 节点 组 、 本 地 机 架 、 远 端 机 架 。 在 副本 层面 ， 如 果 在 目标 节点 或 者 目标 节点 的 同 
一 机 架 上 已 经 存在 了 相同 的 另 一 个 副本 ， 那 么 最 好 不 要 将 该 副本 转发 到 这 个 节点 上 。 


如 图 11-9 所 示 ， 如 果 没有 HVE， 原 始 的 平衡 器 策略 对 将 副本 2 转发 到 其 他 两 个 节点 的 概率 是 相同 的 。 但 显然 ， 将 该 副本 转发 到 Host-3 上 的 另 一 个 节点 是 最 好 的 选择 。 这 是 因为 此 两 节点 位 于 同一 节点 组 
下 ,减少 了 网 络 流量 ， 并 且 保 证 了 和 之 前 相同 的 可 靠 性 (避免 了 将 同一 副本 放置 于 同一 物理 节点 上 ) 。 


图 11-9 HVE 平 衡器 策略 


(3) 任务 调度 策略 扩展 

Hadoop MapReduce 任 务 调度 策略 在 对 任务 进行 调度 的 时 候 ， 会 将 数据 的 本 地 化 考虑 进 Map 的 任务 分 配 。 当 一 个 MapReduce 的 任务 被 提交 ，JobTracker 会 将 输入 数据 切 分 成 很 多 个 块 ， 并 建立 多 个 
任务 并 行 地 对 其 进行 处 理 。 在 这 个 过 程 中 ， 每 个 任务 都 会 分 配给 其 所 在 节点 的 副本 。 当 一 个 TaskTracker 有 空闲 的 任务 槽 时 ， 它 会 向 JobTracker 请 求 新 的 任务 ， 而 JobTracker 会 按 一 定 的 优先 级 为 其 分 配 任 
务 ， 并 且 把 距 其 最 近 的 数据 副本 交 给 它 进行 处 理 。 

在 传统 的 任务 调度 策略 下 ，JobTracker 分 配 任务 给 TaskTracker 的 顺序 是 : 本 地 数据 、 同 一 机 架 、 远 端 机 架 。HVE 对 其 进行 了 扩展 ， 顺 序 变 成 : 本 地 数据 、 本 地 数据 组 、 同 一 机 架 、 远 端 机 架 。 下 面 的 
例子 展示 了 这 个 扩展 的 优势 。 

有 一 个 空 任 务 槽 的 TaskTracker 向 JobTracker 请 求 新 的 任务 ， 有 三 个 候选 的 任务 (如 图 11-10 所 示 ) 。 它 们 工作 在 不 同 的 数据 块 上 ， 等 待 被 调度 。 在 传统 的 任务 调度 策略 下 ，JobTracker 对 将 任务 分 配给 
任务 1 和 任务 2 有 着 相同 的 概率 ， 因 为 它们 都 属于 同一 机 架 但 不 是 本 地 数据 。 随 着 HVE 的 扩展 ，JobTracker 会 保证 将 任务 分 配给 任务 2， 因 为 它们 处 于 同一 本 地 数据 组 ， 其 优先 级 高 于 处 于 同一 机 架 内 的 任务 
3。 


scheduling without HVE 


EFE 1. Rack local task 
(3) 2. Off-rack task 


Scheduling with HVE 


(28) 1. Node-group local task 


[ 2] 2. Rack local task 
(3) 3. Off-rack task 


F Virtual Machine = TaskTracker a Task Split 


图 11-10 HVE 任务 调度 策略 


性 能 是 很 多 业内 人 士 对 Hadoop 应 用 在 虚拟 化 平台 上 提出 质疑 的 问题 所 在 。 
VMware 在 其 一 篇 技术 白皮书 中 对 这 种 质疑 提出 了 论证 。 文 章 中 以 3 种 常见 的 实例 作为 实验 的 基础 ， 对 比 了 虚拟 环境 下 和 真实 的 物理 机 环境 下 Hadoop 的 工作 效率 。 


实验 一 是 蒙特 卡 罗 算 法 计算 n。 该 算法 是 典型 的 可 并 行 算法 ， 将 任务 拆 分 到 每 个 mapper 后 ， 它 们 之 间 都 是 独立 的 ， 最 后 结果 汇总 到 一 个 reducer 里 ,没有 大 量 数 据 的 传输 。 该 实验 中 ， 每 个 节点 
mapper 的 数量 等 同 于 CPU 或 vCPU 的 数量 ， 因 此 算法 的 效率 完全 取决 于 CPU 或 vCPU 的 计算 速度 。 


实验 二 是 大 数据 的 读 写 (TestDFSIO) 。 该 实验 主要 测试 的 是 数据 的 吞吐 量 ， 首 先 会 向 HDFS 写 入 约 1TB， 然 后 再 将 其 读 回 。 


实验 三 是 经 典 的 大 数据 的 排序 (TeraSort) 。 大 数据 排序 需要 考虑 的 因素 很 多 ， 包 括 计算 、 网 络 、 存 储 、IMO 等 ， 因 此 被 认为 最 能 表现 Hadoop 工 作 量 。 该 实验 又 被 分 为 三 小 部 分 : 数据 生成 
(TeraGen) 、 数 据 排 序 (TeraSort) 和 数据 验证 (TeraValidate) 。 数 据 生 成 和 数据 排序 有 些 类 似 ， 不 同 的 是 数据 生成 需要 一 些 产 生 随 机 数 的 计算 、 该 阶段 不 需要 reducer。 数 据 排 序 阶 段 会 对 数据 进行 排 
序 ， 然 后 将 结果 写 入 HDFS9 上 。 数 据 验 证 会 读 取 数据 排序 后 的 结果 ， 来 验证 结果 是 否 全 部 有 序 。 


表 11-1 和 图 11-11 展 示 了 3 个 实验 的 结果 。 


表 11-1 虚拟 化 Hadoop 和 传统 Hadoop 集 群 的 性 能 对 比 表 


虚拟 机 群 


a 


TestDFSIO-write 640 706 614 
TestDFSIO-read 499 532 453 
TeraGen 1TB 700 580 
TeraSort 1TB 2995 3127 3110 
TeraValidate 1TB 481 495 
TeraGen 3.5TB 2328 2504 2030 


TeraSort 3.5TB 13 460 14 863 12 494 


a) 
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图 11-11 虚拟 化 Hadoop 和 传统 Hadoop 集 群 的 性 能 对 比 柱状 图 


对 于 这 3 个 实验 的 结果 ， 我 们 完全 可 以 得 出 结论 : 关于 性 能 上 的 担心 完全 是 没有 必要 的 。 在 虚拟 环境 下 ， 运 行 Hadoop 任 务 的 性 能 并 不 比 真 实物 理 机 环境 下 差 ， 在 某 些 情况 下 甚至 更 强 ， 并 且 随 着 虚拟 机 
的 增加 ， 性 能 也 有 增加 的 趋势 。 


11.3 AWS EMR 


它 能 提升 企业 、 研 究 人 员 、 数 据 分 析 师 和 开发 人 员 轻 松 、 经 济 、 高 效 地 掌控 海量 数据 的 能 力 。 基 于 Amazon EC2 技 术 和 Amazon 


Amazon Elastic MapReduce (Amazon EMR) 是 一 种 Web 服 务 ， 
Simple Storage Service (Amazon S3) 技术 的 Web 规 模 基 础 设施 ， 是 一 种 Hadoop 托 管 服务 运行 架构 。Amazon EMR 能 即时 灵活 配置 自身 所 需 容 量 大 小 ， 执 行 数据 密集 型 应 用 计算 ， 完 成 Web 索 引 、 数 


据 挖 掘 、 日 志文 件 分 析 、 数 据 仓 库 、 机 器 学 习 、 财 务 分析 、 科 学 模拟 和 生物 信息 研究 任务 。Amazon EM R 技 术 让 用 户 专注 于 数据 分 析 ， 无 需 担心 费时 的 Hadoop 集 群 设置 、 管 理 或 调整 ， 也 无 需 担心 所 依靠 
的 计算 能 力 。 
1.EMR 的 优势 

1) 易于 使 用 。 你 可 以 迅速 启动 Amazon EMR 集 群 ， 而 不 必 担 心 节点 调配 、 集 群 设置 、Hadoop 配 置 或 集群 调试 。Amazon EMR 会 自行 处 理 这 些 任务 ， 因 此 你 只 需 集中 精力 进行 分 析 即 可 。 

2) 弹性 。 使 用 Amazon EMR， 你 可 以 配置 一 个 、 数 百 个 甚至 数 干 个 任意 大 小 的 计算 实例 来 处 理 数据 ， 可 以 轻松 增加 或 减少 实例 的 数量 ， 并 且 按 使 用 情况 支付 费用 。 

3) 低 成 本 。 你 可 以 以 低 至 每 小 时 0.15 美 元 的 价格 局 动 10 节 点 Hadoop 集 群 。 因 为 Amazon EMR 在 设计 理念 上 支持 Amazon EC2 竞 价 和 预 留 实例 ， 你 还 可 以 将 基础 实例 成 本 节省 90%~80%。 

4) 可 靠 。 用 于 调试 和 监视 集群 的 时 间 将 更 少 。Amazon EMR 的 Hadoop 已 经 针对 云 进行 了 优化 ; 它 还 会 监控 集群 ， 重 新 尝试 失败 的 任务 ， 并 自动 替换 性 能 不 佳 的 实例 。 

5) 安全 。Amazon EMR 会 自动 配置 控制 实例 网 络 访问 的 Amazon EC2 防 火 墙 ， 并 且 你 可 以 在 Amazon Virtual Private Cloud (VPC) (由 你 定义 的 逻辑 上 孤立 的 网 络 ) 上 启动 集群 。 


6) 灵活 。 你 可 以 完全 掌控 你 的 集群 。 你 拥有 每 个 实例 的 根 访问 权限 ， 因 此 可 以 轻松 安装 额外 应 用 程序 和 定制 每 个 集群 。Amazon EMR 还 支持 多 个 Hadoop 分 配 和 应 用 程序 。 


2.EMR TCO 分 析 


另 一 个 对 虚拟 化 的 担心 是 总 体 拥有 成 本 (Total Cost of Ownership, TCO) 。 对 于 传统 数据 中 心 来 说 ， 主 要 的 拥有 成 本 来 自 以 下 几 点 : 硬件 (服务 器 、 路 由 等 ) 、 设 施 (房屋 、 电 力 等 ) 、 第 三 方 的 技 
术 支 持 、 维 护 人 员 等 。 而 虚拟 化 的 数据 中 心 主要 的 拥有 成 本 来 自 : 第 三 方 的 技术 支持 、 维 护 人 员 、 存 储 服务 、Hadoop 服 务 。 埃 森 哲 做 过 一 个 关于 EMR 和 传统 数据 中 心 TCO 的 对 比分 析 ， 表 11-2 是 以 月 TCO 
作为 基准 的 成 本 比较 。 虚 拟 化 数据 中 心 没有 硬件 和 设施 方面 的 成 本 ， 因 为 可 以 将 更 多 的 资源 用 在 平台 所 提供 的 服务 上 ， 包 括 存储 服务 和 Hadoop 服 务 。 


表 11-2 ”传统 Hadoop 和 Hadoop-AAS 的 使 用 成 本 对 比 


Monthly TCO 


Bare-metal Hadoop-as-a-Service 
$21 845.04 
Staff for operation $ 9 274.46 $ 3 091.49 Staff for operation 


Technical support ( third-party Technical support ( service 


$ 6 656.00 $1372.27 


vendors ) 


providers ) 


Data center facility and electricity $2 914.58 $ 2 063.00 Storage services 
Server hardware $ 3 000.00 $ 15 318.28 Hadoop service 


EMR 提 供 了 多 种 服务 方式 的 定制 。 分 析 过 程 中 ， 在 资金 允许 的 情况 下 ， 选 取 了 三 种 实例 类 型 (Instance Type) ， 分 别 为 标准 超大 (m1 xlarge) 、 高 内 存 4 倍 超大 (m24xlarge) 、 集 群 技术 8 倍 超大 
(cc2.8xlarge) 。 这 三 种 实例 类 型 都 是 其 所 在 实例 族 中 最 大 的 。 除 此 之 外 ，EMR 还 提供 了 三 种 不 同 的 付费 方式 : @@ 按 需 租用 实例 (On-Demand Instance) ， 提 供 以 小 时 为 颗粒 度 的 计 费 单位 ， 无 需 预 付 
费 ， 也 无 需 承 诺 试用 时 长 ， 并 可 以 通过 Auto scaling 功 能 自动 增删 所 租用 的 虚拟 资源 。@ 预 留 租用 实例 (Reserved Instance) ， 需 要 事先 承诺 合同 时 长 ， 如 一 年 或 三 年 ， 并 需要 交纳 一 定 的 一 次 性 费用 ， 此 
后 在 实际 使 用 中 仍然 按照 小 时 计 费 ， 但 是 单价 要 比 按 需 租用 平均 降低 50%。 在 服务 等 级 上 ， 预 留 租用 也 要 高 于 按 需 租用 ， 亚 马 逊 保证 预 留 租 用 用 户 随时 可 以 获得 其 所 需要 的 服务 资源 ， 而 按 需 租用 实例 则 没 
有 这 方面 的 保证 。@ 现 货 租 用 实例 (Spot Instance) ， 在 这 种 服务 中 ， 用 户 可 以 自己 定价 ， 定 下 用 户 愿意 接受 的 最 高 价格 ,来 租用 EC2 服 务 的 闲散 资源 。 亚 马 逊 根据 供需 情况 会 周期 性 地 发 布 即 时 价格 ， 当 
用 户 最 高 限 价 高 于 其 即时 价格 时 ， 进 行 服务 ， 且 实际 支付 价格 为 系统 即时 价格 ; 当 用 户 最 高 限 价 低 于 即时 价格 时 ， 系 统 自动 终止 服务 ， 待 即时 价格 低 于 用 户 最 高 限 价 时 服务 再 次 启动 。 这 对 于 用 户 的 预算 是 

一 个 更 灵活 的 保证 方式 。 这 种 模式 更 适合 于 需要 大 量 计 算 能 力 但 对 计算 响应 要 求 不 高 的 用 户 ， 如 科学 计算 等 。 当 然 ， 用 户 需要 自行 保证 使 用 现货 租用 实例 的 应 用 对 于 随时 死机 具有 调整 能 力 。 


本 次 分 析 中 ， 分 别 采 用 了 按 需 租用 实例 、 预 留 租用 实例 和 预 留 租用 实例 与 现货 租用 实例 结合 的 付费 方式 ， 在 资金 允许 的 情况 下 ， 使 用 尽 可 能 多 的 租用 实例 。 表 11-3 给 出 了 各 种 实例 类 型 和 付费 方式 下 租 
用 实例 的 个 数 。 


表 11-3 EMR TCO 分 析 中 实例 的 选择 


Instance type | On-demand instances ( ODI)| Reserved instances (RI) | Reserved+Spot instances (RI*SI) 


m2.4xlarge 41 77 


cc2.8xlarge 13 28 53 


一 切 准备 就 绪 的 情况 下 ， 该 分 析 选 取 了 三 种 常见 的 应 用 进行 测试 ， 分 别 为 日 志 分 析 、 用 户 推荐 引 敬 和 文本 聚 类 分 析 。 图 11-12~ 图 11-14 是 三 种 应 用 的 性 能 分 析 结果 。 从 图 中 可 以 看 出 ， 在 大 多 数 情况 
下 ， 按 需 租用 实例 具有 更 好 的 TCO， 而 对 于 另外 两 种 方式 的 TCO 没 有 想象 中 好 。 这 个 结果 很 好 地 反驳 了 外 界 对 虚拟 化 数据 中 心 TCO 的 质疑 。 
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图 11-12 日 志 分 析 实 验 EMR TCO 结 果 
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图 11-14 文本 聚 类 分 析 实 验 EMR TCO4 


114 小结 
本 章 讲 述 了 使 用 虚拟 化 技术 搭建 Hadoop 大 数据 平台 的 优势 和 可 能 遇 到 的 挑战 ， 并 且 结合 两 个 产品 实例 加 以 说 明 。 可 以 看 出 ， 无 论 是 从 性 能 的 角度 还 是 从 使 用 成 本 的 角度 ， 虚 拟 化 构建 Hadoop 大 数据 平 


台 都 是 值得 推荐 和 尝试 的 。 尽 管 传统 Hadoop 大 数据 平台 数据 中 心 仍然 是 行业 主流 ， 但 在 某 些 领域 或 者 某 些 背 景 下 ， 虚 拟 化 依然 有 其 一 席 之 地 。 毕 竟 ， 没 有 放 之 四 海 而 皆 准 的 技术 ， 任 何 技术 的 选择 和 使 用 
都 要 适合 其 所 在 背景 ， 包 括 时 间 、 地 点 、 资 金 预算 、 人 力 等 。 而 随 着 技术 的 成 熟 ， 虚 拟 化 大 数据 平台 必然 会 被 广泛 使 用 。 


第 四 部 分 “大 型 实例 分 析 


第 12 章 AWS 数 据 中 心 实例 


第 13 章 PPTV 基 础 平台 管理 体系 


第 12 草 ”AWS 数据 中 心 实例 


12.1 AWS 概 述 


AWS (Amazon Web Service) 是 亚马逊 提供 的 云 服 务 。 直 到 2005 年 ， 亚 马 逊 花费 十 几 年 的 时 间 打 造 了 可 扩展 的 、 高 可 靠 且 有 效 的 网 上 购物 平台 。2006 年 3 月 ， 开 始 提 供 第 一 个 完全 开放 的 AWS 服 务 ， 
至 今 亚 马 逊 已 成 为 拥有 百 万 用 户 以 及 几 十 亿美 金 的 云 服 务 巨 头 公 司 ， 也 正 引 领 云 计算 的 浪潮 。 亚 马 逊 提供 20 几 种 不 同 的 服务 ， 主 要 有 计算 、 网 络 、 存 储 、 内 容 配 送 、 数 据 库 、 部 署 和 管理 、 应 用 服务 等 。 表 
12-1 总 结 了 AWS 提 供 的 主要 服务 。 


表 12-1 AWS 的 主要 服务 


功 能 AWS 具体 服务 
计算 EC2, Elastic MapReduce, AutoScaling, Elastic Load Balancing, Elastic Beanstalk 
网 络 CloudFront, ELB, EIP, VPC, Amazon Virtual Private Cloud, Amazon Route 53, AWS Direct 
Connect 
Pad Amazon Simple Storage Service ( Amazon S3 ), EBS, Amazon Glacier, AWS Storage Gateway, 
"T AWS Import/Export 
内 容 配送 Amazon CloudFront 
数据 让 Amazon Relational Database Service (Amazon RDS ), Amazon DynamoDB, Amazon 


ElastiCache, Amazon Redshift 


MUS qt AWS Identity and Access Management (IAM ), Amazon CloudWatch, AWS Elastic Beanstalk, 
AWS CloudFormation, AWS Data Pipeline, AWS OpsWorks 

Amazon Simple Queue Service ( Amazon SQS ), Amazon Simple Notification Service ( Amazon 

必用 服务 SNS), Amazon Simple Workflow Service (Amazon SWF), Amazon Simple Email Service (Amazon 


SES), Amazon CloudSearch, Amazon Elastic Transcoder 


与 传统 的 数据 中 心 相 比 ， 亚 马 逊 所 提供 的 AWS 服 务 有 如 下 特点 : 灵活 、 节 约 成 本 、 可 扩展 性 和 弹性 好 、 安 全 性 高 。 灵 活 是 指 AWS 让 使 用 者 自由 选择 使 用 其 已 经 熟悉 的 程序 模型 、 操 作 系统 、 数 据 库 以 及 
系统 架构 。 节 约 成 本 是 指使 用 AWS， 用 户 只 需要 支付 他 们 所 需要 的 服务 ， 不 需要 预先 支付 或 者 长 期 支付 ， 具 体 申请 方法 可 以 参考 文献 。 可 扩展 性 和 弹性 好 是 指 用 户 可 以 快速 地 增加 或 者 减少 AWS 满 足 应 用 的 
资源 以 满足 客户 的 需求 和 管理 的 开销 。 安 全 是 指 提供 点 到 点 的 安全 和 隐私 。 


亚马逊 所 提供 的 云 服务 数据 中 心 是 非常 庞大 的 。 根 据 2009 年 10 月 的 内 部 消息 ， 仅 EC2 计 算 服务 亚马逊 就 提供 了 约 4 万 台 服 务 器 。 然 而 ， 亚 马 逊 的 云 服务 数 据 中 心 一 直 以 来 都 是 商业 秘密 ， 我 们 只 能 从 一 
些 网 上 的 资料 来 间接 获得 ， 或 者 从 论坛 、 博 客 上 得 到 一 些 可 能 的 猜测 。 本 章 根 据 我 们 所 获得 和 整理 的 AWS 资 料 ， 对 AWs 做 一 个 简单 的 介绍 ， 重 点 介绍 AWS 的 计算 、 网 络 、 存 储 和 管理 ， 部 分 涉及 前 面 介绍 


的 软件 定义 数据 中 心 重要 组 件 ， 根 据 所 获得 的 资料 ， 亚 马 逊 拥有 业内 较 早 且 比较 领先 的 数据 中 心 。 通 过 对 亚马逊 的 AWSs 介 绍 ， 我 们 希望 能 让 读者 对 软件 定义 数据 中 心 有 一 个 全 面 的 了 解 。 
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12.1 AWS 概 述 


AWS (Amazon Web Service) 是 亚马逊 提供 的 云 服 务 。 直 到 2005 年 ， 亚 马 逊 花费 十 几 年 的 时 间 打 造 了 可 扩展 的 、 高 可 靠 且 有 效 的 网 上 购物 平台 。2006 年 3 月 ， 开 始 提 供 第 一 个 完全 开放 的 AWS 服 务 ， 
至 今 亚 马 逊 已 成 为 拥有 百 万 用 户 以 及 几 十 亿美 金 的 云 服 务 巨 头 公 司 ， 也 正 引 领 云 计算 的 浪潮 。 亚 马 逊 提供 20 几 种 不 同 的 服务 ， 主 要 有 计算 、 网 络 、 存 储 、 内 容 配 送 、 数 据 库 、 部 署 和 管理 、 应 用 服务 等 。 表 
12-1 总 结 了 AWS 提 供 的 主要 服务 。 


#12-1 AWS 的 主要 服务 


IJ 能 AWS 具体 服务 

计算 EC2, Elastic MapReduce, AutoScaling, Elastic Load Balancing, Elastic Beanstalk 

网 络 CloudFront, ELB, EIP, VPC, Amazon Virtual Private Cloud, Amazon Route 53, AWS Direct 

Connect 

存储 Amazon Simple Storage Service (Amazon S3 ), EBS, Amazon Glacier, AWS Storage Gateway, 
pan AWS Import/Export 

内 容 配送 Amazon CloudFront 

PETIT. Amazon Relational Database Service ( Amazon RDS ), Amazon DynamoDB, Amazon 


ElastiCache, Amazon Redshift 


x 4 te AWS Identity and Access Management (IAM ), Amazon CloudWatch, AWS Elastic Beanstalk, 
AWS CloudFormation, AWS Data Pipeline, AWS OpsWorks 

Amazon Simple Queue Service ( Amazon SQS ), Amazon Simple Notification Service ( Amazon 

必用 服务 SNS), Amazon Simple Workflow Service (Amazon SWF), Amazon Simple Email Service (Amazon 


SES), Amazon CloudSearch, Amazon Elastic Transcoder 


与 传统 的 数据 中 心 相 比 ， 亚 马 逊 所 提供 的 AWS 服 务 有 如 下 特点 : 灵活 、 节 约 成 本 、 可 扩展 性 和 弹性 好 、 安 全 性 高 。 灵 活 是 指 AWSs 让 使 用 者 自由 选择 使 用 其 已 经 熟悉 的 程序 模型 、 操 作 系统 、 数 据 库 以 及 
系统 架构 。 节 约 成 本 是 指使 用 AWS， 用 户 只 需要 支付 他 们 所 需要 的 服务 ， 不 需要 预先 支付 或 者 长 期 支付 ， 具 体 申请 方法 可 以 参考 文献 。 可 扩展 性 和 弹性 好 是 指 用 户 可 以 快速 地 增加 或 者 减少 AWS 满 足 应 用 的 
资源 以 满足 客户 的 需求 和 管理 的 开销 。 安 全 是 指 提供 点 到 点 的 安全 和 隐私 。 


亚马逊 所 提供 的 云 服务 数据 中 心 是 非常 庞大 的 。 根 据 2009 年 10 月 的 内 部 消息 ， 仅 EC2 计 算 服务 亚马逊 就 提供 了 约 4 万 台 服 务 器 。 然 而 ， 亚 马 逊 的 云 服务 数据 中 心 一 直 以 来 都 是 商业 秘密 ， 我 们 只 能 从 一 
些 网 上 的 资料 来 间接 获得 ， 或 者 从 论坛 、 博 客 上 得 到 一 些 可 能 的 猜测 。 本 章 根 据 我 们 所 获得 和 整理 的 AWS 资 料 ， 对 AWs 做 一 个 简单 的 介绍 ， 重 点 介绍 AWs 的 计算 、 网 络 、 存 储 和 管理 ， 部 分 涉及 前 面 介绍 


的 软件 定义 数据 中 心 重要 组 件 ， 根 据 所 获得 的 资料 ， 亚 马 逊 拥有 业内 较 早 且 比 较 领 先 的 数据 中 心 。 通 过 对 亚马逊 的 AWS 介 绍 ， 我 们 希望 能 让 读者 对 软件 定义 数据 中 心 有 一 个 全 面 的 了 解 。 


12.2 “EC2 管 理 计 算 能 力 
12.2.1 EC2 概 述 


Amazon Elastic Compute Cloud (Amazon EC2) 是 一 种 Web 服 务 ， 可 在 云 中 提供 大 小 可 调 的 计算 容量 。 该 服务 旨 在 降低 开发 人 员 进 行 网 络 规模 计算 的 难度 。 EC2 通 过 提供 一 个 真正 的 虚拟 计算 环 
境 ， 用 户 可 以 使 用 Web 服 务 接口 启动 多 种 操作 系统 的 实例 ， 通 过 自 定 义 应 用 环境 加 载 这 些 实例 ， 管 理 用 户 的 网 络 访问 权限 ， 并 根据 所 需 系 统 数量 运行 多 个 映像 。 


12.22 EC2 架 构 
如 图 12-1 所 示 ，Amazon EC2 平 台 主要 包含 如 下 部 分 : 
1.EC2 实 例 


AMI (Amazon Machine Image) 是 亚马逊 虚拟 机 镜像 文件 ， 它 是 一 个 可 以 将 用 户 的 应 用 程序 、 配 置 等 一 起 打包 的 加 密 机 器 镜像 。 用 户 创建 好 AMI 后 ， 部 署 在 EC2 平 台 上 运行 ， 称 为 一 个 EC2 实 例 。 每 
个 实例 自身 包含 一 个 本 地 存储 模块 (Instance Local Store) ， 临 时 存放 用 户 数据 。 如 果 EC2 实 例 运 行 过程 中 出 现 故 障 或 者 实例 被 终止 ， 存 储 在 其 中 的 数据 将 会 去 失 。 因 此， 亚马逊 建议 将 重要 的 数据 保存 在 
EBS 中 以 增强 可 靠 性 。 


2. 弹 性 块 存储 


弹性 块 存储 (EBS) 映射 为 EC2 实 例 上 的 块 设备 ， 与 EC2 配 合 使 用 。EBS 人 允许 用 户 创建 卷 ， 每 个 卷 可 以 作为 一 个 设备 挂 载 到 EC2 实 例 上 。 数 据 在 EBS 中 存储 多 份 ， 从 而 保证 高 可 靠 性 。 另 外 ，EBS 提 供 了 增 
量 快照 功能 ， 可 以 将 当前 卷 的 状态 快照 增 量 备份 到 93 中 。 假 设 EBs 卷 有 100GB 数 据 ， 其 中 只 有 5GB 的 数据 从 上 次 快照 操作 以 后 产生 了 变化 ， 那 么 ， 仅 仪 需要 将 这 5GB 变 化 的 数据 备份 到 93。 


3. 弹 性 负载 均衡 


弹性 负载 均衡 自动 地 将 流量 分 发 给 多 个 EC2 实 例 ， 并 且 在 一 定 程度 上 支持 容错 。 弹 性 负载 均衡 功能 可 以 识别 出 应 用 实例 的 状态 ， 当 某 个 实例 出 现 故 障 时 ， 它 会 自动 将 流量 路 由 到 健康 的 实例 上 。 
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图 12-1 EC2 架 构 


122.3 ”EC2 和 存储 


EC2 本 地 存储 是 实例 自 带 的 磁盘 空间 ， 但 它 并 不 是 持久 的 ， 也 就 是 说 这 个 实例 所 在 的 节点 出 现 故 障 时 ， 相 应 的 磁盘 空间 也 会 随 之 清空 ， 本 地 存储 上 的 数据 随时 有 丢失 的 风险 。 


为 了 解决 本 地 存储 不 可 靠 问 题 ，EC2 推 出 了 EBS， 数 据 在 EBS 中 自动 在 同一 个 可 用 区 域内 复制 多 份 。EBS 通 过 卷 来 组 织 数据 ， 每 个 EBS 卷 只 能 挂 载 到 一 个 EC2 实 例 。EBSs 卷 并 不 与 实例 绑 定 ， 而 是 与 用 户 帐 
号 绑 定 。 当 EC2 实 例 发 生 故 障 时 ， 用 户 可 以 在 新 启动 的 EC2 实 例 上 重新 挂 载 EBS 卷 。 另 外 ，EBS 能 够 以 快照 的 形式 将 数据 增 量 备份 到 S3， 而 S3 的 数据 分 布 在 多 个 可 用 区 域 ， 进 一 步 增强 了 可 靠 性 。EBS 的 设计 
原理 如 图 12-2 所 示 。 


ECIN 块 设备 协议 一 一 | 获取 卷 位 置 
FBS HP Yi 


| a 


EBS control plane 


E12-2 EBS 设计 原理 


12.24 自动 缩放 


自动 缩放 (Auto Scaling) 可 以 根据 用 户 自 定 义 的 条 件 ， 自 动 调整 EC2 的 计算 能 力 。 多 个 EC2 实 例 组 成 一 个 自动 缩放 组 (Auto Scaling Group) ， 当 组 内 的 实例 负载 过 高 ， 比 如 CPU 平均 使 用 率 超 过 
70% 时 ， 可 以 定义 缩放 规则 自动 增加 EC2 实 例 ; 同样 的 ， 当 组 内 的 实例 负载 过 低 时 ， 可 以 自动 缩小 EC2 实 例 规 模 以 降低 成 本 。 


EC2 根 据 计 算 能 力 将 实例 分 为 多 种 类 型 ， 见 表 12-2。 


表 12-2 不 同 计 算 能 力 的 实例 对 比 


Pf 64 fi 
存储 容量 350GB 1690GB 
EC2 的 一 个 计算 单元 称 为 一 个 ECU (EC2Compute Unit) ， 其 计算 能 力 相当 于 1 个 1.0GHz 2007Xeon 处 理 器 。EC2 平 台 不 支持 虚拟 机 实例 在 线 迁移 ， 如 果 用 户 需 要 调整 实例 类 型 ，EC2 内 部 实现 时 逻辑 


上 分 为 两 步 : (a) 终止 原 有 的 EC2 实 例 ; (b) 根据 一 定 的 策略 〈 比 如 负载 ) 动态 选择 新 的 服务 器 节点 启动 新 的 EC2 实 例 。 自 动 缩放 功能 一 般 会 配合 弹性 负载 均衡 功能 一 起 使 用 ， 弹 性 负载 均衡 组 件 能 够 自 
动 将 流量 转发 给 新 实例 。 


12.2.5 ”网 络 路 由 


通过 自动 缩放 技术 ， 当 EC2 平 台 检测 到 某 个 实例 出 现 故 障 时 ， 将 动态 选择 新 的 节点 启动 新 实例 ， 每 个 实例 重新 启动 后 它 的 公共 iP 地 址 都 会 发 生变 化 。Internet 用 户 通 过 域名 访问 EC2 实 例 ， 然 而 ， 需 要 一 
段 比较 长 的 时 间 才 能 更 新 公共 IP 地 址 与 DNS 之 间 的 映射 关系 。 为 了 解决 这 一 问题 ，EC2 提 供 了 两 种 方式 ,: 


1) 弹性 负载 均衡 : EC2 新 实例 重启 后 通知 弹性 负载 均衡 组 件 ， 弹 性 负载 均衡 组 件 能 够 自动 将 流量 切换 到 新 实例 。 
2) 弹性 IP 地 址 : 弹性 |P 地 址 和 用 户 账号 而 不 是 和 某 个 特定 的 实例 绑 定 ，EC2 用 户 可 以 将 DNS 域名 设置 为 指向 弹性 |P 地 址 。 新 实例 启动 时 ，EC2 用 户 只 需要 使 用 管理 工具 将 弹性 |P 地 址 与 新 的 实例 关联 起 
来 ，Internet 用 户 感觉 不 到 任何 差异 。 


12.2.6 ”EC2 实 例 


Amazon EC2 实 例 是 AWS 云 平台 中 提供 计算 功能 的 最 基本 构建 模块 。 用 户 可 以 把 EC2 实 例 当 作 可 以 运行 应 用 程序 的 虚拟 服务 器 或 者 是 云 主 机 。EC2 实 例 需要 通过 亚马逊 系统 映像 (Amazon Machine 
Image, AMI) 创建 ， 并 且 可 以 选择 适当 的 实例 类 型 。AM| 是 一 种 包含 软件 配置 的 模板 ， 其 定义 了 用 户 需 要 实例 的 操作 环境 ， 包 括 操作 系统 、 应 用 软件 等 。 用 户 可 以 选择 由 AWS、 用 户 社区 或 AWS 
Marketplace 提 供 的 AM1， 当 然 也 可 以 使 用 AWs 提 供 的 工具 创建 自己 的 AMI。 有 了 AMI 之 后 ， 用 户 可 以 基于 它 创建 一 个 或 数 干 个 实例 。 这 些 实例 可 以 有 多 种 类 型 ，Amazon EC2 现 在 已 经 提供 超过 20 种 实例 
类 型 供用 户 选择 。 一 般 来 说 ， 实 际 的 计算 任务 对 CPU/GPU、 内 存 、 网 络 和 存储 等 几 个 方面 的 需求 会 有 所 侧重 ， 所 以 AWS 根 据 这 些 指标 提供 不 同 的 实例 类 型 ， 从 而 满足 用 户 的 各 种 计算 需求 。 目 前 EC2 实 例 
主要 可 以 分 为 下 面 几 大 类 型 : 


1. 微 型 


微型 实例 是 成 本 最 低 的 实例 ， 可 提供 少量 的 CPU 资源 一 1 个 vCPU。 微 型 实例 可 在 有 额外 的 处 理 器 资源 时 择机 突 发 性 提高 CPU 处 理 能 力 。 微 型 实例 很 适合 吞吐 量 较 低 的 应 用 程序 和 需要 偶尔 增加 计算 能 
力 的 网 站 ， 但 不 适合 长 期 高 CPU 性 能 要 求 的 应 用 程序 。 另 外 ，AWs 的 免费 使 用 套餐 (Free Usage Tier) 中 包含 的 实例 就 是 微型 实例 类 型 的 。 


2. 通 用 型 


通用 型 系列 包含 M1 和 M3 实例 类 型 ,这些 实例 类 型 提供 了 相对 平衡 的 包括 计算 、 内 存 和 网 络 等 在 内 的 资源 ， 是 很 多 应 用 程序 的 良好 选择 。 通 用 型 实例 使 用 Intel Xeon 处 理 器 ， 建 议 用 于 小 型 和 中 型 数据 
sm 


库 、 需 要 附加 内 存 和 缓存 集群 的 数据 处 理 作 业 ， 也 建议 用 于 运行 SAP 的 后 端 服务 器 、Microsoft SharePoint 和 其 他 企业 应 用 程序 。 


3. 计 算 优化 型 


计算 优化 型 包含 C1、CC2 和 C3 实例 类 型 ， 是 针对 可 从 高 计算 能 力 中 获 益 的 应 用 程序 进行 了 优化 。 计 算 优化 型 实例 的 vCPU 与 内 存 比率 比 其 他 系列 高 ， 且 每 个 vCPU 的 成 本 是 所 有 Amazon EC2 实 例 类 型 中 
最 低 的 。 我 们 建议 用 计算 优化 型 实例 运行 对 处 理 器 要 求 比较 高 的 应 用 程序 。 此 类 应 用 的 例子 包括 ， 高 流量 前 端 集群 、 按 需 批 量 处 理 、 分 布 式 分 析 以 及 高 性 能 科学 与 工程 应 用 程序 。 


4. 内 存 优化 型 


内 存 优 化 型 系列 包含 M2 和 CR1 实 例 类 型 ， 并 针对 内 存 需求 比较 高 的 应 用 程序 进行 了 优化 。 内 存 优化 型 实例 使 用 Intel Xeon 处 理 器 ， 每 GB 内 存 的 成 本 是 Amazon EC2 实 例 类 型 中 最 低 的 。 我 们 建议 将 内 
存 优化 型 实例 用 于 很 多 数据 库 应 用 程序 、 内 存 缓存 、 其 他 分 布 式 缓存 以 及 较 大 的 企业 应 用 程序 部 署 ， 如 SAP 和 Microsoft SharePoint, 


5. 存 储 优化 型 


存储 优化 型 系列 包含 HI1 和 HS1 实 例 类 型 ， 使 用 Intel Xeon 处 理 器 ， 能 向 用 户 提供 经 过 优化 县 适用 于 具有 特定 磁盘 I/O 和 和 存储 容量 要 求 的 应 用 程序 的 直 连 式 存储 选项 。 目 前 ， 有 两 种 类 型 的 存储 优化 型 实 
例 : HI1 实 例 和 HS1 实 例 。 前 者 在 存储 速度 上 进行 优化 而 后 者 在 存储 容量 上 进行 优化 。HI1 实 例 提供 了 超 快 的 SSD 支 持 型 实例 存储 ， 能 够 处 理 超过 12 万 个 随机 读 取 的 |OPS， 并 且 这 种 实例 经 过 优化 ， 具 有 极 高 
的 随机 1/O 性 能 和 较 低 的 I|OPS 成 本 。HS1 实 例 通过 24 个 硬盘 驱动 为 用 户 提供 48TB 的 存储 容量 、 高 网 络 性 能 、 更 快 的 CPU 性 能 (Intel Xeon E5-2650) 并 提供 高 达 2.6GB/s 的 输出 性 能 。 


6.GPU 


GPU 实 例 系列 目前 包含 CG1 和 G2 两 种 实例 。 这 两 种 实例 类 型 提供 了 基于 Intel Xeon 处 理 器 的 CPU 和 基于 NVIDIA 的 GPU。CG1 实 例 提供 了 NVIDIA Tesla M2050GPU ( "Fermi" GF100) ， 每 个 提供 
448 个 CUDA 核 和 3GB 的 显存 。G2 实 例 提供 了 NVIDIA GRID GPU (“Kepler”GK104) ， 每 个 提供 1536 个 CUDA 核 和 4GB 的 显存 。 目 前 的 驱动 程序 支持 OpenGL 4.3、DirectX 9/10/11、CUDA 5.5, 
OpenCL 1.1 和 GRID 软 件 开发 包 等 。 用 户 可 以 通过 使 用 GPU 实 例 来 处 理 复杂 的 视频 和 和 3D 动画 处 理 ， 实 现 高 质量 的 交互 式 视 频 流体 验 。 


12.3 ”可 扩展 的 存储 


AWS 所 有 的 存储 解决 方案 ， 广 义 上 来 说 都 是 基于 云端 的 存储 服务 ， 也 就 是 通常 所 说 的 存储 即 服务 (Storage as a Service) 。 不 同 于 传统 的 物理 存储 使 用 之 前 需要 复杂 的 容量 规划 、 采 购 、 部 署 等 过 
时 ， 云 端 存储 服务 的 一 个 基本 特征 就 是 边 用 边 付 费 (Pay as You Go) 。 此 外 使 用 云端 存储 服务 的 另 一 个 好 处 是 理论 上 具有 无 限 的 可 扩展 性 ， 不 需 提前 规划 。AWs 为 用 户 提 供 了 从 块 和 存储、 对 象 存储 到 备 
份 、 归 档 、 灾 难 恢复 的 各 种 存储 服务 ， 其 中 主要 的 产品 包括 : 


- 对 象 (Object) 存储 一 一 S3， 无 限 的 可 扩展 性 以 及 高 度 可 人 靠 的 存储 。 


- 块 (Block) 存储 一 一 EBS， 为 EC2 云 计算 提供 的 块 存储 (或 卷 存储 ) o 
- 归档 (Archive) 存储 一 一 Glacier， 超 低 价格 的 对 象 存 储 ， 用 于 归档 或 备份 。 
- 云 网 关 存 储 一 一 Storage Gateway, #4£ A 3828 (On-Premise) 的 IT 环境 与 AWS 的 云端 存储 服务 (O 任 Premise) 。 


为 了 满足 用 户 存 储 /访问 数据 的 需求 ，AWS 提 供 了 多 种 数据 导入 /导出 的 解决 方案 。 最 基本 的 方式 就 是 通过 互联 网 直接 访问 (REST) 。 此 外 用 户 也 可 以 选择 通过 AWS 的 Direct Connect 服 务 ， 建 立 一 个 
可 连接 本 地 设施 和 AWS 的 专线 网 络 ， 从 而 达到 稳定 网 络 性 能 、 降 低 带 宽 成 本 的 目的 。 用 户 甚至 可 以 选择 将 物理 磁盘 快递 到 亚马逊 的 数据 中 心 ， 从 而 实现 人 工 的 数据 传递 ， 这 称 为 AWS Import/Export 服 务 。 
最 后 作为 数据 备份 的 一 种 形式 ， 用 户 也 可 以 在 本 地 数据 中 心 部 署 云 网 关 存 储 ， 在 后 台 连 接 AWS 的 云端 存储 服务 。 


12.3.1 IRR 


对 于 运行 在 亚马逊 云 计 算 平台 (EC2) 上 的 用 户 实例 来 说 ， 如 果 需 要 额外 的 数据 存储 卷 ， 或 者 希望 在 关机 之 后 仍然 可 以 访问 数据 ， 就 需要 用 到 亚马逊 的 块 存储 (Elastic Block Store, EBS) 服务 。 每 一 
个 EBS 的 存储 卷 都 会 在 AWS 的 可 用 性 区 域 (Availability Zone) 内 拥有 多 个 数据 副本 ， 从 而 实现 高 可 用 性 与 持久 性 的 保障 。EBs 为 云 计算 实例 提供 了 低 延 时 的 稳定 存储 访问 ， 并 且 具 有 良好 的 可 扩展 性 。 


使 用 EBs 的 时 候 ， 用 户 可 以 首先 创建 一 个 指定 大 小 的 存储 卷 ， 然 后 附加 (Attach) 到 任何 一 个 EC2 实 例 上 。 随 后 用 户 可 以 在 计算 实例 内 的 操作 系统 里 看 到 一 个 新 的 磁盘 ， 并 在 其 上 建立 文件 系统 ， 其 使 
用 体验 与 增加 一 个 物理 磁盘 完全 一 致 。 用 户 也 可 以 基于 性 能 和 成 本 的 综合 考虑 ， 选 择 对 应 不 同 服务 级 别 的 IOPs 保 障 。EBS 提 供 了 两 种 类 型 的 存储 : 标准 (Standard) 卷 以 及 IOPS 定 制 (Provisioned) 卷 。 


此 外 亚马逊 还 为 EBs 的 存储 卷 提供 了 快照 (Snapshot) 功能 ,支持 在 任意 时 刻 创建 存储 快照 并 保存 在 S3 中 (参见 下 一 小 节 介绍 ) 。EBS 的 快照 存储 是 增 量 式 的 ， 只 有 快照 时 刻 之 后 发 生变 动 的 数据 块 ， 
其 原 有 的 数据 内 容 才 会 被 保存 到 S3 中 ( 即 产 生计 费 ) 。 此 外 用 户 也 可 以 基于 快照 内 容 创建 新 的 存储 卷 ， 并 且 可 以 选择 更 大 的 容量 以 及 不 同 的 可 用 性 区 域 。 


EBS 的 存储 卷 有 着 内 在 的 元 余 性 ， 因 此 不 会 出 现 单 节点 (磁盘 或 服务 器 ) 故障 。 然 而 相对 来 说 EBS 的 可 用 性 不 如 S3， 原 因 是 EBS 的 数据 副本 都 存储 在 同一 个 可 用 性 区 域内 (一 个 数据 中 心 或 一 个 地 理 区 域 
内 多 个 数据 中 心 ) ， 而 5S3 的 数据 副本 则 保存 在 多 个 不 同 的 可 用 性 区 域 中 ， 这 样 即使 某 个 可 用 性 区 域 由 于 自然 灾害 等 原因 整体 瘫痪 ,用 户 的 数据 仍然 是 可 以 访问 的 。 因 此 基于 长 期 保护 数据 的 考虑 ， 为 EBS 卷 
创建 的 快照 也 都 是 保存 在 S3 中 的 。 


目前 来 说 ， 并 没有 公开 的 资料 表明 亚马逊 的 EBS 是 采用 何 种 架构 设计 的 ， 但 很 多 迹象 都 表明 亚马逊 采用 了 RedHat 的 集群 套件 ， 其 中 针对 存储 的 就 是 GNBD。 与 传统 的 数据 中 心 不 同 ， 亚 马 逊 并 没有 使 用 
FC SAN 或 者 iSCSI 等 经 典 的 存储 架构 ， 而 是 基于 商业 化 服务 器 搭建 存储 集群 或 者 说 软件 定义 存储 。GNBD (Global Network Block Device) 提供 了 针对 RedHat GFS 的 块 存储 设备 访问 ， 这 种 访问 是 基于 
TCP/IP 网 络 协议 的 。GFS (Global File System) 是 一 种 集群 文件 系统 ， 人 允许 集群 中 的 多 个 机 器 同时 访问 一 个 共享 的 块 存储 设备 。GNBD 有 两 个 重要 的 组 件 : GNBD 客 户 端 与 GNBD 服 务 器 。GNBD 服 务 器 运 
行 在 存储 节点 上 ， 提 供 本 地 存储 对 外 发 布 的 服务 。GNBD 客 户 端 则 运行 在 一 个 部 署 了 GFS 的 节点 上 ， 建 立 到 GNBD 服 务 器 的 连接 ， 并 将 其 发 布 的 某 个 块 存储 设备 挂 载 到 本 地 。 多 个 GNBD 客 户 端 可 以 同时 访 
问 一 个 GNBD 服 务 器 发 布 的 存储 设备 。 


12.3.2 对象 存 储 


Amazon S3 提 供 了 基于 互联 网 访问 的 对 象 存 储 ， 并 为 数据 访问 提供 了 灵活 的 编程 接口 。 正 如 前 文 提 到 的 ，S3 为 用 户 对 象 提供 跨 区 域 的 匈 余 性 ， 即 在 不 同 的 可 用 性 区 域 创建 数据 副本 。S3 的 数据 存储 过 程 
采用 强 一 致 性 的 设计 ， 在 所 有 区 域 保存 完 副 本 之 后 才 向 用 户 返回 操作 成 功 。 同 时 $3 也 会 周期 性 地 对 数据 完整 性 进行 校 验 ， 及 时 监测 并 进行 数据 修复 。 此 外 S3 也 有 着 很 好 的 可 扩展 性 ， 在 系统 中 增加 更 多 的 存 
储 节点 ， 可 以 增强 整体 的 可 用 性 、 速 度 、 吞 吐 率 、 容 量 等 。 目 前 ，S3 已 经 被 广泛 应 用 于 多 种 场合 : 内 容 人 存储 与 发 布 ; 数据 分 析 ; 备份 、 归 档 和 灾难 恢复 ; 网 站 内 容 托管 等 。 


S3 的 架构 设计 与 实现 可 以 参考 Dynamo， 其 中 包括 一 致 性 散 列 、 最 终 一 致 性 、 向 量 时 钟 等 关键 技术 。Amazon Dynamo 发 表 于 2007 年 的 SOSP (ACM Symposium on Operating Systems 
Principles) 会 议 ， 是 由 亚马逊 开发 的 一 项 内 部 技术 ， 用 于 实现 一 个 具有 增 量 可 扩展 性 、 高 度 可 用 的 键 - 值 (Key-Value) 存储 系统 ， 或 者 说 对 象 存储 。 这 项 技术 旨 在 为 用 户 提供 费用 、 一 致 性 、 持 久 性 以 及 
性 能 之 间 的 一 个 折 中 选择 。 需 要 注意 的 是 Amazon Dynamo 并 不 是 一 项 对 外 提供 的 网 络 服务 ， 实 际 上 它 是 作为 一 个 内 部 的 核心 组 件 ， 用 于 支持 亚马逊 的 多 项 网 络 服务 ， 例 如 这 里 介绍 的 S3。 其 中 包括 以 下 一 


些 设计 原则 : 
强 一 致 性 (Strong Consistency) 的 复制 算法 : 写 完 所 有 副本 后 才 返 回 成 功 ， 这 一 点 与 Dynamo 的 最 终 一 致 性 (Eventual Consistency) 设计 略 有 不 同 。 
. 增 量 的 可 扩展 性 (Incremental Scalability) : 支持 每 次 一 个 存储 节点 的 扩展 。 
对 称 性 (Symmetry) : 所 有 的 节点 责任 对 等 ， 在 集群 中 不 存在 任何 特殊 节点 或 特殊 角色 。 对 称 性 能 够 简化 系统 的 部 署 与 维护 。 
异 质 性 (Heterogeneity) : 系统 应 当 具有 感知 节点 异 质 性 的 能 力 ， 即 根据 不 同 的 资源 和 能 力 分 配 工作 负载 。 


为 了 实现 高 可 用 性 与 持久 性 ，Dynamo 将 数据 副本 存储 到 多 个 不 同 的 节点 上 。 每 一 份 数据 都 被 复制 到 NN 个 节点 (S3 中 是 3 个 ) 。 每 一 份 数 据 都 会 有 一 个 协调 者 ， 负 载 落 在 某 个 学 围 内 的 数据 存储 与 复制 。 
除了 在 本 地 存储 数据 ， 协 调 者 还 将 数据 复制 到 接 下 来 的 N-1 个 后 续 节点 上 。 也 就 是 说 ， 每 个 节点 都 负责 之 前 N 个 节点 (包括 自己 ) 的 数据 副本 存储 。 如 图 12-3 所 示 ， 节 点 B 将 数据 人 存储 到 本 地 ， 并 将 其 复制 到 
节点 C 和 D。 从 另 一 个 角度 来 说 ， 节 点 D 负 责 存储 所 有 沙 在 范围 (A, Bl. (B，C] 以 及 (C，D] 内 的 数据 。 
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图 12-3 Dynamo: 环 状 结构 的 分 区 与 复制 
此 外 ， 如 果 想 知道 更 多 对 象 存储 系统 的 设计 细节 ，OpenStack 的 Swift 系统 是 一 个 不 错 的 选择 。Swift 是 OpenStack 的 对 象 存储 组 件 ， 其 设计 实现 在 很 大 程度 上 参考 了 S3 的 设计 。Swift 提 供 了 兼容 S3 接 
口 的 实现 ， 而 且 是 完全 开源 的 。 


12.3.3 ” 冷 数据 归档 


如 果 用 户 不 需要 经 常 访问 存储 的 数据 ， 例 如 邮件 归档 等 ， 那 又 Amazon Glacier 就 是 一 个 更 好 的 选择 。Glacier 提 供 了 一 种 特别 廉价 的 存储 服务 ， 用 于 数据 的 备份 与 规定 。Glacier 拥 有 与 $3 一 样 的 数据 持 
久 性 与 安全 性 ,但 是 却 只 需 不 到 十 分 之 一 的 价格 (每 GB 每 月 只 需 1 美 分 ) 。Glacier 专 为 不 经 常 访问 的 数据 设计 ， 数 据 获 取 可 能 需要 数 小 时 ， 从 而 保证 极其 低廉 的 价格 。 对 于 传统 的 归档 解决 方案 来 
it, Amazon Glacier 带 来 了 一 个 全 新 的 挑战 : 不 再 需要 容量 规划 与 设备 采购 ， 只 要 按 需 付费 (非常 低廉 的 价格 ) 。 


Glacier 声 称 运行 在 廉价 的 商业 化 硬件 上 ， 其 实现 细节 并 未 对 外 公布 。 据 一 位 前 亚马逊 员工 透露 的 消息 : 
Glacier 的 硬件 基于 低 转速 的 定制 磁盘 ， 由 某 个 厂商 专 为 亚 马 进 设计 。 
` 这 些 磁 盘 被 放 在 亚 马 进 定制 的 机 架 (Rack) 上 ， 其 中 只 有 一 小 部 分 磁盘 能 够 同时 上 线 服务 。 
一 部 分 磁盘 被 转移 到 其 他 地 方 ， 在 用 户 需 要 访问 数据 的 时 候 才 被 重新 安装 到 机 架 上 ， 这 也 解释 了 为 什么 需要 3~5 个 小 时 的 访问 延 时 。 


从 这 些 线索 可 以 看 出 ， 亚 马 逊 化 了 大 力气 来 降低 数据 人 存储 的 能 耗 ， 其 中 的 架构 设计 涉及 从 硬件 到 软件 的 方方面面 。 低 转速 的 定制 磁盘 ， 以 及 将 冷 数据 磁盘 下 线 乃至 放 进 仓库 等 无 所 不 用 其 极 的 手段 ， 都 
可 以 有 效 地 降低 数据 中 心 的 能 源 消耗 。 设 想 一 下 如 果 要 搭建 一 个 类 似 的 存储 系统 ， 首 先 我 们 需要 许多 大 容量 的 存储 ， 而 且 价 格 必须 非常 便宜 。 这 些 存储 的 性 能 并 不 重要 ， 因 此 只 需 很 低 的 转速 和 寻 道 时 间 。 
其 次 我 们 需要 一 个 很 大 的 仓库 来 放置 这 么 多 的 存储 ， 其 中 有 相当 一 部 分 磁盘 是 断 电 甚至 离线 存储 的 〈 比 如 锁 在 抽 屠 里 ) 。 当 用 户 需要 访问 数据 的 时 人 息 ， 甚 至 可 能 是 由 人 工 找到 磁盘 并 将 其 插入 机 架 提供 服 

务 。 当 然 更 加 智能 的 办 法 可 能 是 使 用 工业 机 器 人 搬运 磁盘 。 


Glacier 可 能 利用 93 人 存储 来 缓存 用 户 上 传 的 数据 ， 这 样 用 户 就 感觉 不 到 存储 性 能 的 差异 。 缓 存 的 数据 随后 会 被 逐渐 转移 到 后 端的 Glacier 专 用 磁盘 上 。 一 个 管理 数据 转移 的 处 理 器 会 分 配 相 应 的 物理 存储 ， 
并 通过 聚合 不 同 的 数据 使 系统 达到 最 大 的 吞吐 率 ， 从 而 降低 写 数据 的 平均 能 耗 。 后 台 的 调度 管理 器 可 以 通过 编程 的 方式 控制 磁盘 、 机 架 直 至 整个 数据 中 心 ， 天 闭 空闲 的 设备 并 对 其 进行 调度 。 上 总而言之， 这 
里 的 系统 架构 设计 完全 不 同 于 传统 的 数据 中 心里 对 存储 软 硬 件 的 管理 。 


需要 注意 的 是 ，Glacier 的 数据 获取 至 少 需要 3~ 5 个 小 时 的 延 时 ， 而 且 费 用 比 人 存储 高 很 多 。Glacier 每 个 月 的 免费 额度 是 数据 总 量 的 59% (分 挫 到 每 一 天 计算 ) ， 额 外 的 数据 获取 都 需要 收费 。 此 外 获取 费 
用 还 取决 于 下 载 速 度 ， 速 度 越 快 收费 越 高 。 举 例 来 说， 如果 用 户 有 75TB 数 据 ， 每 天 的 免费 额度 就 是 128GB。 假 设 你 需要 获取 140GB 数 据 ， 有 以 下 几 种 选择 : @4 小 时 平均 下 载 ， 付 费 21.6 美 元 ; @8 小 时 平均 
下 载 ， 付 费 10.8 美 元 ; @28 小 时 以 上 平均 下 载 ， 免 费 。 详 细 的 算法 参见 亚马逊 官网 的 FAQ 页 面 。 实 际 上 亚马逊 是 鼓励 用 户 慢 速 下 载 ， 从 而 降低 系统 突 发 负载 的 可 能 性 。 如 果 忽 视 了 这 一 点 ， 用 户 可 能 就 不 得 
不 面 对 天 价 账单 了 。 


12.34 ZEW 


AWS 云 存储 网 关 人 允许 用 户 将 本 地 数据 上 传 到 云端 ， 从 而 满足 备份 、 文 件 共 享 、 快 速 灾难 服务 等 需求 。 云 存储 网 关 是 一 个 部 署 在 用 户 端 (例如 用 户 数据 中 心里 ) 的 软件 ， 通 常 运行 在 VMware ESX 或 
Microsoft Hyper-V 等 虚拟 化 平台 上 。 云 存储 网 关 将 用 户 数据 中 心 与 亚马逊 的 云 存 储 服务 无 颖 对 接 ， 在 后 端 将 用 户 数据 转移 或 备份 到 S3 或 Glacier (如 图 12-4 所 示 ) 。 在 前 端 ， 云 存储 网 关 支 持 各 种 传统 的 存 


储 访问 接口 (SCS) 等 ， 用 于 支持 用 户 现 有 的 应 用 程序 。AWS 云 存储 网 关 的 设计 充分 考虑 到 对 网 络 效 率 的 优化 ， 只 有 更 新 过 的 数据 块 会 被 上 传 ， 这 样 就 大 大 减少 了 通过 互联 网 传输 的 数据 量 。 此 外 用 户 也 可 
以 选择 AWS Direct Connect 服 务 建 立 到 亚马逊 数据 中 心 的 专用 网 络 ， 从 而 进一步 增加 吞吐 量 和 减少 网 络 费 用 。 云 存储 网 关 支 持 三 种 配置 模式 : 


: RA (Gateway-Cached) 的 存储 卷 : 用 户 的 数据 全 部 存储 到 Amazon S3， 并 且 在 本 地 缓存 经 常 访问 的 数据 。 这 种 配置 实际 上 是 一 种 折 中 的 方式 ， 兼 顾 了 访问 延 时 与 存储 代价 。 当 用 户 应 用 程序 读 写 
数据 的 时 候 ， 数 据 首先 被 存储 在 本 地 存储 上 (DAS/NAS/SAN) 。 本 地 存储 在 这 里 扮演 两 种 角色 : 作为 向 S3 传 输 数 据 的 上 传 缓存 ， 为 经 常 访问 的 数据 提供 读 缓 存 。 


. 网 关 保存 (Gateway-Stored) 的 存储 卷 : 如 果 你 需要 对 所 有 数据 的 低 延 时 访问 ， 所 有 的 数据 都 会 被 保存 在 本 地 磁盘 ， 同 时 数据 会 被 逐步 备份 到 Amazon S3。 这 种 配置 方式 实际 上 是 一 种 数据 备份 的 形 
式 。 本 地 存储 负责 所 有 来 自 应 用 程序 的 数据 读 取 ， 同 时 作为 向 S3 传 输 数据 的 上 传 缓存 。 


- 网 关上 庶 拟 磁带 (Gateway-VIL) : 配置 为 VTL 的 模式 ， 提 供 iSCSI 访 问 接口 给 备份 软件 访问 。 数 据 实际 上 被 存储 到 Amazon S3 或 Glacier 中 。 
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不 管 是 基于 网 关 绥 存 还 是 网 关 保 存 的 模式 ， 用 户 都 可 以 随时 对 存储 卷 创 建 增 量 式 的 快照 。 生 成 的 快照 被 保存 在 Amazon S3 中 ， 这 一 点 类 似 于 对 EBS 进 行 的 快照 。 对 于 网 关 保 存 的 存储 卷 来 说 ， 从 快照 恢 


复 就 相当 于 从 历史 备份 中 恢复 。 当 用 户 从 快照 中 恢复 数据 时 ， 网 关 存 储 会 从 S3 下 载 数据 到 本 地 存储 。 对 于 网 天 缓存 的 存储 卷 来 说 ， 所 有 的 用 户 数据 已 经 保存 在 33 中 ， 快 照 操作 相当 于 创建 了 一 个 新 的 版 本 。 
用 户 可 以 从 快照 中 恢复 最 新 的 完整 数据 ， 这 一 过 程 中 ， 实 际 上 没有 任何 的 数据 需要 被 下 载 到 本 地 存储 。 随 后 当 用 户 进行 读 取 操作 的 时 候 ， 数 据 才 会 被 逐渐 缓存 到 本 地 .。 


此 外 ，Storage Gateway 与 EBS 之 间 也 存在 很 好 的 衔接 (通过 $3 中转) 。 我 们 可 以 基于 Storage Gateway 的 快照 创建 新 的 存储 卷 ， 然 后 附加 到 在 EC2 云 计算 平台 中 运行 的 用 户 实例 上 ， 反 之 亦 然 。 这 样 
的 整合 方式 可 以 让 用 户 很 容易 地 在 连接 内 部 部 署 (On-Premise) 的 IT 环境 与 AWS 的 云 服 务 (Off-Premise) 之 间 实 现 数据 镜像 操作 。 


12.4 ”弹性 十 足 的 网 络 


Amazon EC2 的 云 计 算 平台 为 用 户 提 供 了 灵活 廉价 的 计算 资源 ， 用 户 能 够 以 一 种 租赁 方式 使 用 云 服 务 商 提供 的 存储 (Amazon S3) 、 计 算 (Amazon EC2) 等 服务 ， 获 得 几乎 无 限 的 计算 能 力 ， 并 按 需 
付费 ， 这 对 于 需要 进行 大 量 计算 任务 但 又 无 力 购买 昂贵 设备 的 个 人 和 企业 尤为 有 利 ， 因 为 他 们 可 以 将 应 用 系统 中 需要 复杂 运算 的 部 分 分 离 出 来 ， 外 包 给 云 去 完成 ， 提 升 了 整体 效率 ， 节 省 了 经 费 和 时 间 。 这 
些 功 能 需要 有 强大 的 网 络 支持 ， 事 实 上 ， 不 管 是 亚马逊 的 公有 云 EC2 还 是 虚拟 私有 云 (Virtual Private Cloud, VPC) ， 都 提供 了 强大 的 、 弹 性 十 足 的 网 络 作 为 用 户 业务 的 支撑 ， 用 户 可 以 根据 自己 的 实际 业 
务 需求 来 对 网 络 按 需 定制 和 配置 。 


尽管 亚马逊 对 外 界 透 露 的 技术 信息 不 是 很 多 ， 但 是 其 提供 的 网 络 功能 在 一 定 程度 上 几乎 成 了 云 服务 网 络 功能 的 标杆 ， 包 括 微软 、VMware、 上 百度、 阿里 巴巴 等 厂商 都 在 借鉴 和 效仿 其 网 络 功能 。 


亚马逊 的 云 服务 同样 利用 了 SDN 的 强大 功能 ，SDN 是 其 弹性 云 计 算 的 秘密 武器 。 亚 马 逊 拥有 专门 定制 版 的 XEN 虚 拟 层 ， 并 在 其 上 面 定制 了 虚拟 交换 机 ，AWs CloudFormation ( 云 中 的 堆栈 和 配置 管 
EB) 、 安 全 区 、 弹 性 负载 均衡 器 等 功能 都 清楚 地 表明 许多 曾经 是 网 络 硬件 的 东西 已 经 部 署 在 了 亚马逊 的 软件 堆栈 上 。 目 前 AWs 已 经 借助 VPC 成 为 了 SDN 和 领域 中 的 领导 者 ， 其 强大 的 网 络 隔离 功能 也 已 经 代入 
至 虚拟 层 中 并 且 得 到 了 定制 硬件 堆栈 的 支持 。 


12.4.1 亚马逊 的 VPC 


在 这 里 重点 介绍 VPC 的 原因 是 : 采用 VPC 是 AWS 云 平台 的 技术 发 展 方 向 ，AWS 从 2009 年 开始 在 一 个 区 域 中 引入 VPC 的 概念 和 技术 ， 然 后 逐年 增加 新 的 VPC 特性 并 推广 到 其 他 所 有 的 区 域 ， 到 2013 年 最 
终 把 VPC 技术 设 定 为 缺 省 的 环境 设置 。 如 果 用 户 是 2013 年 3 月 18 日 之 后 创建 的 AWS 用 户 ， 那 么 账户 中 会 自动 包含 一 个 缺 省 的 VPC。 另 外 一 种 包含 缺 省 VPC 的 状况 是 在 一 个 老 账 户 的 之 前 没有 创建 EC2 等 资源 
的 区 域 中 ，AWS 也 会 提供 缺 省 的 VPC 环境 。 自 从 AWS 推 出 VPC 功能 后 ，EC2 的 计算 环境 就 分 成 了 EC2-Classic 和 EC2-VPC 两 种 。 为 给 用 户 提供 更 为 安全 、 灵 活 的 环境 ， 显 然 EC2-VPC 的 使 用 将 越 来 越 普 遍 。 


亚马逊 的 VPC 是 一 个 网 络 层面 的 功能 ，VPC 人 允许 用 户 在 AWS 云 中 预 配置 出 一 个 逻辑 隔离 的 部 分 ， 让 用 户 在 自己 定义 的 虚拟 网 络 中 启动 AWS 资 源 。 用 户 可 以 完全 掌控 虚拟 联网 环境 ， 包 括 选 择 自 有 的 IP 地 
址 范围 、 创 建 子 网 ， 以 及 配置 路 由 表 和 网 关 ; 也 可 以 在 公司 数据 中 心 和 VPC 之 间 创 建 硬件 虚拟 专用 网 络 (VPN) 连接 ， 将 AWs 云 用 作 公司 数据 中 心 的 扩展 ， 可 以 说 VPC 的 最 大 特点 就 是 其 弹性 的 网 络 。 


用 户 可 以 轻松 自 定 义 Amazon VPC 的 网 络 配置 。 例 如 ， 可 以 为 可 访问 Internet 的 Web 服 务 器 创建 公有 子 网 ， 而 将 数据 库 或 应 用 程序 服务 器 等 后 端 系统 放 在 不 能 访问 Internet 的 私有 子 网 中 ; 也 可 以 利用 
安全 组 和 网 络 访问 控制 列表 等 多 种 安全 层 ， 帮 助 对 各 个 子 网 中 Amazon EC2 实 例 的 访问 进行 控制 。 


12.4.2 VPC 的 特性 


与 EC2-Classic 相 比 ，EC2-VPC 提 供 了 更 多 的 网 络 特性 来 帮助 用 户 实现 在 云 中 安全 、 快 捷 且 定制 化 地 部 署 业 务 ， 用 户 可 以 通过 VPC 提供 的 虚拟 专用 网 关 或 称 为 VPN 网 关 ， 然 后 把 用 户 自己 的 数据 中 心 或 
办 公 环 境 与 AWS 上 的 VPC 环境 进行 连接 ， 从 而 实现 用 户 自己 的 内 部 网 络 通过 VPN 或 Direct Connection (DX) 与 AWS 上 的 VPC 环境 组 成 一 个 虚拟 的 私有 网 络 环境 。 正 因 如 此 ，VPC 也 是 AWS 云 平台 实现 混 


合 云 架 构 的 重要 技术 之 一 。 
这 些 特性 由 VPC 网 络 的 多 个 数据 元 组 成 ， 它 们 对 拥有 现 有 网 络 的 用 户 而 言 并 不 陌生 ， 这 些 元 素 包括 了 : 
- Virtual Private Cloud (VPC) : AWS 云 中 逻辑 隔离 的 虚拟 网 络 。 从 所 选 的 范围 内 定义 VPC 的 IP 地 址 空间 。 
FN: VPC 的 IP 地 址 范围 内 的 一 个 区 段 ， 其 中 可 放 入 各 组 隔离 的 资源 。 
.Intetnet 网 关 : 公有 Internet 连 接 中 Amazon VPC3X — 35. 
. NAT 实 例 : 提供 端口 地 址 转换 的 下 C2 实 例 ， 以 便 非 EIP 实 例 可 以 通过 Internet 网 关 访 问 Internet。 
- 硬件 VPN 连 接 : JH P f Amazon VPC 与 数据 中 心 、 家 庭 网 络 或 托管 位 置 设施 之 间 基 于 硬件 的 VPN 连 接 。 
| 虚拟 专用 网 关 : VPN 连 接 中 Amazon VPCiX — 35$. 
用 户 网 关 : VPN 连 接 中 用 户 这 一 端 。 
“路由器: 路 由 器 用 于 将 Internet 网 关 、 虚 拟 专用 网 关 、NAT 实 例 和 子 网 相互 连接 。 
提供 的 网 络 特 性 包括 : 
1. 实 例 IP 地 址 的 固定 


传统 的 EC2 实 例 启动 之 后 ， 如 果 在 实例 停止 后 重新 启动 这 个 实例 ， 实 例 私 有 的 IP 地 址 就 会 发 生变 化 。 采 用 VPC 后 ， 你 不 但 能 给 实例 指定 分 配 的 私有 IP 地 址 ， 而 且 这 个 地 址 可 以 在 实例 的 生命 周期 中 保持 


不 变 。 


2. 给 实例 分 配 多 个 I|P 地 址 


传统 的 EC2 实 例 最 多 只 能 有 一 个 私有 的 IP 地 址 ， 一 个 公有 的 IP 地 址 。 但 是 有 些 客户 有 一 个 实例 对 应 多 个 IP 地 址 的 需求 ， 这 个 需求 可 以 在 VPC 环境 中 实现 。 根 据 实例 类 型 的 不 同 ， 在 VPC 中 我 们 可 以 为 实例 
分 配 不 同 数量 的 IP 地 址 。 


3. 定 义 和 添 加 网 络 接口 


传统 的 EC2 实 例 只 能 有 一 个 缺 省 的 网 络 接口 ， 但 是 对 于 在 VPC 中 的 实例 ， 除 了 缺 省 的 主 网 络 接口 (Eth0) 外 ， 还 可 以 定义 多 个 ENI (Elastic Network Interface) 并 把 它们 挂 接 到 EC2 实 例 上 。 


4. 动 态 更 改 安全 组 (Security Group) 


传统 的 EC2 实 例 在 运行 后 不 能 添加 和 删除 安全 组 ， 但 是 对 于 在 VPC 中 的 实例 ， 你 可 以 方便 地 动态 修改 。VPC 中 的 每 个 实例 可 以 最 多 有 5 个 安全 组 设置 。 


5. 控 制 出 站 (Outbound) 通信 


传统 EC2 实 例 的 安全 组 只 能 控制 入 站 (Inbound) 通信 ， 但 是 对 于 在 VPC 中 实例 的 安全 组 ， 你 可 以 同时 控制 出 站 通信 和 入 站 通信 。 


6. 设 定 网 络 控制 列表 (NACL) 


在 VPC 环境 中 ， 除 了 可 以 通过 安全 组 来 设 定 实例 的 访问 权限 外 ， 还 可 以 通过 子 网 的 网 络 控制 列表 来 控制 子 网 内 所 有 实例 的 通信 规则 。 安 全 组 只 对 某 个 使 用 它 的 实例 生效 ， 而 网 络 控制 列表 对 其 上 的 所 有 
实例 都 有 效 。 


7. 专 用 (Dedicated) 硬件 模式 


传统 的 EC2 实 例 只 能 运行 在 缺 省 的 共享 硬件 模式 下 。 对 于 部 分 不 希望 与 其 他 用 户 共 享 硬件 的 客户 ， 可 以 选择 专用 硬件 模式 ， 但 是 这 种 模式 只 有 在 VPC 环境 中 才 提供 。 


12.4.3 VPC 的 应 用 场景 


VPC 可 以 通过 如 下 的 四 种 方式 和 用 户 或 者 外 部 网 络 相连 接 ， 这 大 大 丰富 了 VPC 的 应 用 场景 ， 这 些 场景 中 ， 网 络 的 弹性 控制 和 管理 是 关键 。 


方式 一 : 直接 连接 Internet (公有 子 网 ) ， 如 图 12-5 所 示 。 用 户 可 以 将 实例 推送 到 公开 访问 的 子 网 中 ， 它 们 可 在 其 中 发 送 和 接收 与 Internet 之 间 的 通信 。 这 种 方式 适用 于 单一 层级 且 面 向 公众 的 Web 应 
用 程序 ， 如 博客 或 简单 的 网 站 。 
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图 12-5 “直接 连接 Intetnet (AA FM) 的 VPC 


方式 二 : 私有 子 网 和 公有 子 网 并 存 ， 这 个 情景 的 配置 包括 一 个 有 公有 子 网 和 私有 子 网 的 VPC， 如 图 12-6 所 示 。 常 用 例子 是 一 个 多 层 网 站 ， 其 Web 服 务 器 位 于 公有 子 网 之 内 ， 数 据 库 服务 器 则 位 于 私有 子 
网 之 内 。 你 可 以 设置 安全 性 和 路 由 ， 以 使 Web 服 务 器 能 够 与 数据 库 服务 器 建立 通信 。 公 有 子 网 中 的 实例 可 以 直接 从 Internet 接 收入 站 数据 流 ， 私 有 子 网 中 的 实例 则 不 可 。 公 有 子 网 中 的 实例 可 以 直接 向 
Internet 发 送出 站 数据 流 ， 私 有 子 网 中 的 实例 则 不 可 。 但 是 ， 私 有 子 网 中 的 实例 可 以 使 用 你 在 公有 子 网 中 启动 的 网 络 地 址 转换 (NAT) 实例 访问 Internet。 
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图 12-6 ”私有 子 网 和 公有 子 网 并 存 的 VPC 


方式 三 : 带 有 公有 和 私有 子 网 以 及 硬件 VPN 访 问 的 VPC， 如 图 12-7 所 示 ， 此 情景 的 配置 包括 一 个 包含 公有 子 网 和 私有 子 网 的 VPC， 以 及 一 个 虚拟 专用 网 关 。 用 户 可 以 将 自己 的 网 络 通过 IPsec VPN 隧 道 
进行 通信 ， 可 以 在 公有 子 网 中 运行 有 可 扩展 Web 前 端的 多 层 应 用 程序 ， 还 能 够 将 数据 储存 在 通过 IPsec VPN 连 接 与 你 的 网 络 相连 的 私有 子 网 中 。 
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图 12-7 带 有 公有 和 私有 子 网 以 及 硬件 VPN 访 问 的 VPC 


方式 四 : 仅 带 有 私有 子 网 和 硬件 VPN 访 问 的 VPC， 此 情景 的 配置 包括 一 个 有 单一 私有 子 网 的 VPC， 以 及 一 个 虚拟 专用 网 关 ， 以 允许 用 户 将 自己 网 络 通 过 IPsec VPN 隧 道 进行 通信 ， 而 没有 可 以 进行 
Internet 通 信 的 Internet 网 关 (如 图 12-8 所 示 ) 。 如 果 用 户 希 望 利用 亚马逊 的 基础 设施 将 你 的 网 络 扩展 到 云 ， 并 且 不 将 网 络 公开 到 Internet， 可 以 采用 此 情景 。 


通过 以 上 四 种 方式 ， 用 户 能 够 通过 VPC 提供 的 VPN 网 关 ， 把 自己 的 数据 中 心 或 办 公 环 境 与 AWS 上 的 VPC 环境 进行 连接 ， 从 而 实现 用 户 自己 的 内 部 网 络 通过 VPN 或 Direct Connection (DX) 与 AWS 上 
的 VPC 环境 组 成 一 个 虚拟 的 私有 网 络 环境 。 正 因 如 此 ，VPC 也 是 AWS 云 平台 实现 混合 云 架构 的 重要 技术 之 一 。 
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图 12-8 仅 带 有 私有 子 网 和 硬件 VPN 访 问 的 VPC 
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包括 谷歌 、 亚 马 逊 在 内 的 互联 网 公司 一 直 是 SDN 技 术 的 推动 者 和 实践 者 ， 这 也 是 SDN 在 今年 大 行 其 道 的 原因 ， 尤 其 是 亚马逊 的 AWS 向 外 提供 的 北向 APl， 几 乎 成 了 业界 的 标准 之 一 ， 比 如 OpenStack 的 
网 络 组 件 Neutron， 就 提供 了 对 EC2API 的 支持 。 亚 马 逊 在 其 官方 网 站 上 提供 了 丰富 的 API 功 能 介绍 ， 用 户 和 应 用 程序 可 以 利用 这 些 接口 来 实现 对 网 络 的 编程 和 定制 ， 实 现 网 络 的 软件 定义 。 例 如 ， 我 们 可 以 
通过 创建 子 网 的 API 在 指定 的 ID 为 vpc-1a2b3c4d 的 VPC 中 创建 一 个 子 网 。 


Request: 

https: //ec2.amazonaws.com/?Action=CreateSubnet 
&VpclId-vpc-1a2b3c4d 

&CidrBlock-10.0.1.0/24 


Response: 
<CreateSubnetResponse xmlns-"http: //ec2.amazonaws.com/doc/2014-02-01/"» 
«requestid»7a62c49f-347e-4£c4-9331-6e8eEXAMPLE«/requestid» 
«subnet» 
«subnetId»subnet-9d4a7b6c«/subnetId» 
<state>pending</state> 
«vpcId»vpc-1a2b3c4d«/vpcId» 
<cidrBlock>10.0.1.0/24</cidrBlock> 
«availablelpAddressCount»251«/availablelpAddressCount» 
«availabilityZone»us-east-la«/availabilityZone» 
«tagSet/» 
«/subnet» 
</CreateSubnetResponse> 


尽管 亚马逊 对 其 南 向 接口 技术 的 介绍 很 少 ， 不 过 ， 在 SDN 的 理解 上 ， 笔 者 比较 认同 盛 科 网 络 总 监 张 卫 峰 的 看 法 ， 所 谓 软 件 定义 网 络 ， 其 本 质 也 就 是 希望 应 用 软件 可 以 参与 对 网 络 的 控制 管理 ,满足 上 层 
业务 需求 ， 通 过 自动 化 业务 部 署 简化 网 络 运 维 ， 这 是 SDN 的 核心 诉求 ， 控 制 与 转发 分 离 。 但 为 了 满足 这 种 核心 诉求 ， 不 分 离 控 制 与 转发 ， 比 较 难 以 做 到 ， 至 少 是 不 灵活 。 换 名 话说， 控制 与 转发 分 离 只 是 大 


了 满足 SDN 的 核心 诉求 的 一 种 手段 ， 如 果 某 些 场景 中 有 别 的 手段 可 以 满足 ， 那 也 可 以 ， 比 如 管理 与 控制 分 离 。 从 这 个 意义 上 看 ， 亚 马 逊 的 VPC 是 最 典型 的 9DN ， 其 向 上 层 暴 露 的 VPC/EC-2API 正 是 上 层 软件 
定制 网 络 的 接口 和 通道 ， 应 用 程序 可 以 根据 自己 的 需求 来 实现 对 网 络 的 定制 和 管理 ， 是 真正 的 软件 定义 网 络 。 


125 ”自动 化 的 管理 和 部 署 
亚马逊 的 AWS 提 供 自动 化 的 管理 和 部 署 接口 。 然 而 由 于 网 上 资料 有 限 ， 不 能 够 一 一 介绍 。 下 面 就 以 EC2 自 动 化 的 管理 和 部 署 为 例 作 一 个 说 明 。 在 亚马逊 的 数据 中 心 ， 成 干 上 万 个 节点 组 成 数据 众多 的 集 


群 ， 要 减轻 系统 管理 员 的 负担 ， 需 要 自动 化 工具 的 协作 。EC2 实 例 需要 使 用 AMI 来 创建 实例 ， 使 用 自 定 义 的 AMI 可 以 根据 自己 的 应 用 定制 和 快速 部 署 。AMI (Amazon Machine Image) 是 一 个 模板 ， 它 包 
含 操作 系统 、 应 用 程序 服务 器 和 应 用 程序 等 配置 。AMI 可 以 分 为 两 种 : 基于 EBS 的 和 基于 实例 存储 的 。 前 者 可 以 在 关闭 后 不 丢失 修改 ， 而 后 者 所 有 的 修改 都 会 丢失 。 两 者 的 对 比如 表 12-3 所 示 。 


表 12-3 基于 EBS 和 基于 实例 存储 的 AMI 比 较 


特征 基于 实例 存储 
局 动 时 间 通常 少 于 1 分 钟 用 第 大 于 5 分 钟 
大 小 限制 10GB 
root 设备 位 置 Instance storage 


数据 持久 性 在 实例 失败 或 者 终止 时 ， 数 据 继 | 数据 只 有 在 实例 运行 时 存在 ， 非 root 设备 可 以 
2X Tia TTA TE 


续 存 在 使 用 Amazon EBS 
( £& ) 
特 征 基于 EBS 基于 实例 存储 
升级 可 以 在 实例 停止 时 ， 修 改 实例 类 | 实例 的 属性 在 实例 的 生命 周期 中 是 固定 的 不 能 
JT 2A E. — : N^ 
型 、 内 核 、 内 存 和 用 户 数据 修 " 的 
实例 使 用 ，Amazon EBS 卷 使 用 a ees p 
t : p 实例 使 用 ，AMI 存储 的 S3 
Amazon EBS 快照 
AMI 的 创建 和 捆绑 使 用 单一 命令 或 调用 需要 安装 和 使 用 AMI Tools 
实例 可 以 处 于 停止 状态 ， 实 例会 不 能 处 于 停止 状态 ， 只 能 处 于 运行 或 非 运行 


停止 状态 


fE EBS 中 持久 存在 状态 


自动 初始 化 依赖 EC2 提 供 的 meta-data 和 用 户 提供 的 user-data。meta-data 能 让 初始 化 机 制 得 知 有 关 这 个 虚拟 机 的 动态 数据 ， 如 内 部 IP 地 址 、 所 在 地 名 等 。user-data 则 是 开机 时 ， 以 期 传递 给 EC2 的 
参数 。 因 为 可 以 传递 任意 数据 ， 所 以 可 以 很 方便 地 用 于 建立 自动 化 机 制 。 目前， 自动 化 部 署 的 工具 较 多 ， 常 用 的 有 ec2-run-user-data 和 runurl。 前 者 是 一 个 脚本 程序 ， 可 以 让 AMI 在 开机 时 试 着 执行 user- 
data。ec2-run-user-data 需 要 上 传 整个 脚本 ,仍然 不 方便 ， 而 后 者 即 runurl 可 以 将 脚本 以 URL 的 形式 抓 下 来 执行 ， 这 样 只 需要 执行 runurl 命 令 即 可 自动 将 脚本 下 载 并 执行 。 自 动 化 部 署 是 AWS 一 个 很 重要 
的 组 成 部 分 ， 当 管理 数量 巨大 的 集群 时 ， 自 动 化 部 署 会 起 到 四 两 氢 干 斤 的 作用 。 


当 使 用 自动 化 部 署 工 具 将 虚拟 机 启动 以 后 ， 还 需要 有 监控 和 报警 管理 工具 。 针 对 AWs 的 EC2 管 理 ， 出 现 了 许多 有 用 的 监控 和 报警 工具 ， 如 表 12-4 所 示 。 这 些 工 具 可 以 帮助 用 户 方便 地 查看 虚拟 机 内 部 运 
行 状 态 和 资源 使 用 情况 。 


表 12-4 了 EC2 虚 拟 机 常用 的 监控 报警 管理 工具 


T ER 网 址 功 能 
xCat : //xcat.sourceforge.net 远程 指令 执行 和 管理 集群 
Puppet : //www.puppetlabs.com 集中 部 署 和 管理 系统 
Caplstrano : //capify.org/ 38 pd 56 ie HER HR 


Syslog-ng : //www.balabit.com/network-security/syslog-ng 传送 日 志 
Zabbix : //www.zabbix.com/ 监控 和 报警 
Ganglia : //ganglia.sourceforge.net/ 监控 

Cactl : //www.cacti.net 监控 和 报警 


Nagios : //www.nagios.org/ 监控 和 报警 


除 监 控 和 报警 管理 功能 外 ，EC2 的 管理 功能 还 包括 弹性 负载 均衡 (ELB) 和 自动 延展 (Auto Scaling) ， 可 以 帮助 用 户 可 扩展 地 、 高 可 用 地 使 用 EC2 服 务 。 弹 性 负载 均衡 是 指 根据 工作 流 的 需求 以 及 各 个 
节点 的 使 用 状态 ， 合 理 地 选择 可 以 分 配 的 节点 进行 计算 资源 的 分 配 。 由 于 AW3s 是 一 个 跨 地 域 的 数据 中 心 ， 即 节点 的 物理 位 置 可 能 分 布 在 各 个 不 同 的 地 点 ， 而 且 有 的 相隔 较 远 ， 因 此 负载 均衡 器 需要 保证 数据 
中 心 各 个 区 域 的 负载 均衡 。 负 载 均 衡器 (Load Balancer) 是 ELB 的 管理 单位 ， 由 一 个 DNS 与 一 到 多 个 端口 组 成 。 负 载 均 衡器 可 以 把 服务 请 求 分 配给 同一 地 区 不 同 的 EC2 虚 拟 机。 目前 ， 负 载 均 衡器 是 不 可 跨 
地 域 的 。 负 载 均 衡器 有 健康 检查 功能 ， 可 以 自动 发 现 失效 的 节点 ， 并 合理 均衡 分 配 负载 。 自 动 延展 可 以 帮助 用 户 有 效 地 管理 资源 。 自 动 延展 的 功能 包括 : 使 用 可 伸缩 的 容量 ， 即 按照 应 用 需求 自动 增加 和 删 
除 资源 ; 自动 关 掉 出 现 问题 的 机 器 。 自 动 延 展 管理 需要 定义 一 些 功能 组 件 : @ 启 动 设置 ， 一 个 自动 延展 组 对 应 一 个 启动 设置 ， 而 该 设置 是 动态 可 变 的 。@ 触 发 器 ， 该 组 件 通过 实时 监控 ， 当 满足 一 定 条 件 
时 ,例如 磁盘 快 满 、CPU 使 用 率 较 高 ， 进 行 自动 延展 操作 。@ 延 展 操作 ， 可 以 动态 地 增加 或 者 删除 资源 。 


在 安全 管理 方面 ，EC2 提 供 多 层次 的 安全 保护 ， 包 括 宿主 机 操作 系统 、 客 户 机 操作 系统 、 防 火 墙 、 认 证 的 API 调 用 。 这 些 安全 机 制 互相 依赖 ， 目 的 是 防止 未 被 授权 的 用 户 或 系统 访问 Amazon EC2 里 的 数 
据 。 图 12-9 显 示 的 是 Amazon EC2 多 层 安 全 抽象 图 ， 从 防火 墙 到 客户 操作 系统 ， 到 API 接 口 ， 表 到 宿主 机 的 安全 保护 。 首 先 ， 管 理 员 使 用 登录 宿主 机 管理 时 需要 经 过 多 层 的 安全 认证 ， 而 这 些 宿 主机 也 专 为 
管理 设置 了 安全 保护 ， 增 强 了 日 志和 认证 功能 。 其 次 ， 客 户 机 完全 供 客户 使 用 ，AWS 没 有 权限 控制 客户 机 。AWS 只 是 提 了 一 些 安全 建议 给 客户 ， 包 括 使 用 SSH2 版 本 以 上 的 安全 登录 方式 ，Linux 系 统 不 允许 
远程 root 用 户 访 问 等 。 此 外 ，AWS 还 提供 自动 安全 更 新 操作 ， 即 客户 可 以 使 用 亚马逊 的 Linux 更 新 源 自动 进行 更 新 和 补丁 操作 。 再 次 ，EC2 提 供 防火 墙 保 护 机 制 ， 包 括 限制 网 络 协 议 、 服 务 端 口 、 源 IP 地 址 ， 
还 提供 分 组 的 安全 保护 机 制 ， 例 如 网 络 服务 器 组 可 以 使 用 80 (HTTP) 且 / 或 者 443 (HTTPS) 访问 网 络 ， 应 用 服务 器 组 可 以 使 用 8000 仅 访问 网 络 服务 器 组 ， 而 数据 库 服务 器 组 仅 可 通过 3306 访 问 应 用 服务 器 
组 。 所 有 这 些 组 仪 可 以 通过 管理 员 使 用 端口 22 (SSH) 访问 ， 而 且 只 能 通过 客户 公司 网 络 。 启 动 或 者 终止 实例 以 及 修改 防火 墙 参数 的 API 调 用 也 受到 EC2 的 安全 保护 。 用 户 只 能 通过 授权 的 访问 密 钥 进行 操 
作 ， 而 API 调 用 也 通过 SSL 加 密 进行 保护 。 
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图 12-9 Amazon EC2 提 供 多 层 的 安全 保护 


12.6 ”效益 分 析 与 未 来 发 展 


亚马逊 的 AWS 在 公有 云 服 务 市 场 占有 较 大 份额 ， 它 有 效 解 决 了 用 户 应 用 需求 ， 节 约 了 成 本 ， 提 高 了 资源 利用 率 。 一 方面 ， 对 用 户 而 言 ， 可 以 自由 地 定制 自己 的 应 用 服务 需求 。 另 一 方面 ， 亚 马 逊 在 数据 
中 心 建立 和 管理 方面 做 了 大 量 的 创造 性 的 工作 。 这 些 工作 包括 了 当下 热门 的 技术 ， 如 软件 定义 网 络 、 存 储 庶 拟 化 等 。 亚 马 逊 在 此 过 程 中 也 飞速 发 展 ， 有 研究 机 构 预 测 ，AWS 在 2016 年 的 收入 将 达到 100 亿 美 
元 ，2020 年 将 高 达 200 亿 美元 。 作 为 云 计算 领域 的 领导 者 ， 亚 马 逊 也 受到 了 来 自 其 他 云 计算 领域 竞争 对 手 如 微软 、 谷 歌 、Rackspace、Verizon、IBM、 惠 普 等 的 挑战 。 


随 着 云 计算 的 发 展 ， 还 有 一 些 问 题 强 待 解决 : @ 数 据 安 全 。 由 于 所 有 的 数据 均 放 在 云端 ， 因 此 用 户 数据 的 可 靠 性 、 安 全 性 如 何 保障 成 为 了 迫在眉睫 的 问题 。 尽 管 已 经 出 现 一 些 数据 加 密 的 方法 对 存在 云 
端的 数据 进行 保护 ， 但 是 解决 方法 仍 不 成 熟 。@ 性 能 开销 。 由 于 AWS 大 量 使 用 了 虚拟 机 ， 虚 拟 机 资源 相对 物理 资源 性 能 会 有 所 下 降 ， 更 重要 的 是 ， 共 享 物理 资源 的 虚拟 机 之 间 存 在 资源 竞争 的 关系 ， 容 易 引 
起 一 系列 性 能 问题 。 如 何 提高 服务 的 性 能 是 另 一 个 开放 的 问题 。@@ 大 数据 分 析 。 现 在 的 数据 中 心 较 传 统 的 数据 中 心 相 比 ， 数 据 量 大 增 ， 其 中 包含 了 许多 没有 用 的 数据 。 如 何在 海量 的 数据 中 找到 有 用 的 信 
息 ， 也 是 一 个 很 有 意义 的 研究 方向 。 未 来 的 几 年 ， 亚 马 逊 将 开始 涉足 私有 云 领域 ， 而 作为 公有 云 服务 商 的 杰出 代表 ， 如 何 将 技术 转移 到 私有 云 领域 也 是 我 们 关注 的 一 个 方向 。 
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13.1 系统 概述 


PPTV 作 为 全 球 领先 的 互联 网 视频 服务 提供 商 ， 面 向 全 球 提供 高 质量 的 视频 服务 ， 拥 有 庞大 的 基础 设施 和 应 用 服务 ， 在 国内 构建 了 超过 200 个 数据 中 心 ， 并 管理 和 运 维 数 干 台 服务 器 及 数 干 个 应 用 服务 。 
为 了 应 对 高 速 的 流量 和 业务 增长 ， 基 于 开放 的 标准 和 开源 系统 ，PPTV 逐 步 构建 了 成 熟 的 云 架构 体系 和 基于 云 的 数据 中 心 ， 实 现 了 基于 laaS、MaaS 和 Saas 的 高 成 熟 度 的 云 模 型 演进 ， 构 建 了 基于 软件 定义 的 
基础 设施 管理 体系 ， 提 供 了 基于 弹性 的 资源 管理 和 快速 全 局 资源 调控 。 


13.1.1 云 部 署 模 型 


基于 运 曹 策略 考虑 ，PPTV 使 用 基于 私有 云 和 公有 云 相 结合 的 混合 云 部 署 模型 。 考 虑 国内 网 络 环境 和 实际 情况 ， 国 内 主要 以 自 建 1DC 为 主 ， 基 于 Cloudstack 构 建 私有 云 平 台 ， 而 海外 市 场 公有 云 成 熟 度 比 
较 高 ， 大 多 都 使 用 Windows Azure 作 为 海外 节点 的 云 服务 提 供 商 (如 图 13-1 所 示 ) 。 
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Hybrid Cloud 
图 13-1 云 部 署 模型 


13.1.2 ” 自 建 IDC 部 署 概述 


PPTV 在 全 国 自 建 有 约 200 个 数据 中 心 ， 其 中 核心 业务 分 别 部 署 在 4 个 电信 核心 节点 机 房 、2 个 网 通 核心 节点 机 房 、3 个 多 线 机 房 和 1 个 BGP 机 房 ，CDN 业 务 部 署 在 全 国 接近 200 个 边缘 节点 机 房 。 所 有 核心 


业务 机 房 均 基 于 CloudStack 实 现 对 基础 设施 的 控制 和 管理 ，CDN 业 务 基于 自行 开发 的 管理 系统 进行 统一 管理 和 部 署 。 基 于 集中 式 管 理 平台 对 所 有 自 建 1DC 进 行 集中 式 的 调度 和 管理 服务 ， 集 中 式 的 管理 平台 
被 部 署 在 BGP 和 多 线 机 房 。 部 署 结构 如 图 13-2 所 示 。 
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13.1.3 “系统 架构 和 组 成 


PPTV 遵 循 开放 API 与 开放 标准 ， 基 于 开源 软件 构建 基于 云 的 基础 平台 体系 ， 其 主要 由 laaS 层 、MaaS 层 和 SaaS 层 三 个 层面 组 成 ， 如 图 13-3 所 示 ， 各 层面 通过 统一 标准 化 APl 进 行 自 动 化 调度 和 集成 管 


理 ， 实 现 了 高 弹性 、 可 伸缩 化 、 可 编制 的 服务 管理 和 调控 模式 。 在 云 平台 的 构建 中 PPTV 使 用 了 非常 多 的 开源 解决 方案 ， 使 用 Cloudstack 作 为 laas 解 决 方案 、Openstack Swift 作为 分 布 式 对 象 存 储 解决 方 
案 ， 开 源 方 案 的 使 用 大 大 加 快 了 云 平台 的 建设 速度 ， 并 开发 和 定制 了 统一 接口 规范 ， 实 现 了 各 系统 之 间 的 集成 ， 提 供 了 全 自动 化 的 管理 能 力 。 下 面 将 简单 描述 各 层面 的 组 成 和 特性 。 
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图 13-3 ”系统 架构 
1.laaSiz 


该 层 主要 由 物理 硬件 资源 和 资源 控制 管理 软件 组 成 。 物 理 硬 件 主要 有 x86 服 务 器 和 物理 硬盘 ， 基 于 KVM 实 现 了 对 物理 硬件 的 虚拟 化 ， 基 于 Cloudstack 实 现 对 计算 资源 和 网 络 资源 管理 ， 基 于 OpenStack 
Swift 实 现 对 存储 资源 的 管理 。 


2.MaaS 层 


该 层 由 负载 均衡 服务 、 自 动 化 管理 服务 等 服务 组 件 构成 。 负 载 均 衡 服 务 提 供 全 局 跨 区 域 智能 解析 和 负载 均衡 服务 及 本 地 负载 均衡 管理 服务 ， 自 动 化 管理 服务 提供 自动 化 装机 、 系 统 服务 初始 化 、 资 产 管 
理 、 配 置 管理 、 监 控 管 理 、 应 用 部 署 管 理 等 服务 。 


3.SaaSIz 


该 层 由 PPcloud、PPBIP 等 软件 服务 组 成 。PPcloud 提 供 核心 视频 服务 ，PPBIP 提 供 大 数据 服务 。 


第 13 章 ”PPTV 基 础 平台 管理 体系 


13.1 系统 概述 


PPTV 作 为 全 球 领先 的 互联 网 视频 服务 提供 商 ， 面 向 全 球 提供 高 质量 的 视频 服务 ， 拥 有 庞大 的 基础 设施 和 应 用 服务 ， 在 国内 构建 了 超过 200 个 数据 中 心 ， 并 管理 和 运 维 数 干 台 服务 器 及 数 干 个 应 用 服务 。 
为 了 应 对 高 速 的 流量 和 业务 增长 ， 基 于 开放 的 标准 和 开源 系统 ，PPTV 逐 步 构 建 了 成 熟 的 云 架 构 体系 和 基于 云 的 数据 中 心 ， 实 现 了 基于 laaS、MaaS 和 和 SaaS 的 高 成 熟 度 的 云 模 型 演进 ， 构 建 了 基于 软件 定义 的 
基础 设施 管理 体系 ,提供 了 基于 弹性 的 资源 管理 和 快速 全 局 资源 调控 。 


13.1.1 ” 云 部 署 模型 


基于 运营 策略 考虑 ，PPTV 使 用 基于 私有 云 和 公有 云 相 结合 的 混合 云 部 署 模 型 。 考 虑 国内 网 络 环 境 和 实际 情况 ， 国 内 主要 以 自 建 iDC 为 主 ， 基 于 CloudStack 构 建 稚 有 云 平台 ， 而 海外 市 场 公有 云 成 熟 度 比 
较 高 ， 大 多 都 使 用 Windows Azure 作 为 海外 节点 的 云 服务 提供 商 (如 图 13-1 所 示 ) 。 
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13.1.2 ” 自 建 IDC 部 署 概述 


PPTV 在 全 国 自 建 有 约 200 个 数据 中 心 ， 其 中 核心 业务 分 别 部 署 在 4 个 电信 核心 节点 机 房 、2 个 网 通 核心 节点 机 房 、3 个 多 线 机 房 和 1 个 BGP 机 房 ，CDN 业 务 部 署 在 全 国 接 近 200 个 边缘 节点 机 房 。 所 有 核心 
业务 机 房 均 基 于 CloudStack 实 现 对 基础 设施 的 控制 和 管理 ，CDN 业 务 基于 自行 开发 的 管理 系统 进行 统一 管理 和 部 署 。 基 于 集中 式 管 理 平 台 对 所 有 自 建 1DC 进 行 集中 式 的 调度 和 管理 服务 ， 集 中 式 的 管理 平台 
被 部 署 在 BGP 和 多 线 机 房 。 部 署 结构 如 图 13-2 所 示 。 
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13.1.3 “系统 架构 和 组 成 


PPTV 遵 循 开放 API 与 开放 标准 ， 基 于 开源 软件 构建 基于 云 的 基础 平台 体系 ， 其 主要 由 laaS 层 、MaaS 层 和 SaaS 层 三 个 层面 组 成 ， 如 图 13-3 所 示 ， 各 层面 通过 统一 标准 化 APl 进 行 自 动 化 调度 和 集成 管 


理 ， 实 现 了 高 弹性 、 可 伸缩 化 、 可 编制 的 服务 管理 和 调控 模式 。 在 云 平台 的 构建 中 PPTV 使 用 了 非常 多 的 开源 解决 方案 ， 使 用 Cloudstack 作 为 laas 解 决 方案 、Openstack Swift 作为 分 布 式 对 象 存储 解决 方 
案 ， 开 源 方 案 的 使 用 大 大 加 快 了 云 平台 的 建设 速度 ， 并 开发 和 定制 了 统一 接口 规范 ， 实 现 了 各 系统 之 间 的 集成 ， 提 供 了 全 自动 化 的 管理 能 力 。 下 面 将 简单 描述 各 层面 的 组 成 和 特性 。 
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图 13-3 ”系统 架构 

1.laaS 层 


该 层 主 要 由 物理 硬件 资源 和 资源 控制 管理 软件 组 成 。 物 理 硬件 主要 有 x86 服 务 器 和 物理 硬盘 ， 基 于 KVM 实 现 了 对 物理 硬件 的 虚拟 化 ， 基 于 Cloudstack 实 现 对 计算 资源 和 网 络 资 源 管理 ， 基 于 OpenStack 
Swift 实 现 对 存储 资源 的 管理 。 


2.MaaS 层 


该 层 由 负载 均衡 服务 、 自 动 化 管理 服务 等 服务 组 件 构成 。 负 载 均 衡 服务 提供 全 局 跨 区 域 智能 解析 和 负载 均衡 服务 及 本 地 负载 均衡 管理 服务 ， 自 动 化 管理 服务 提供 自动 化 装机 、 系 统 服务 初始 化 、 资 产 管 
理 、 配 置 管理 、 监 控 管 理 、 应 用 部 署 管 理 等 服务 。 


3.SaaSIz 


该 层 由 PPcloud、PPBIP 等 软件 服务 组 成 。PPcloud 提 供 核心 视频 服务 ，PPBIP 提 供 大 数据 服务 。 


13.2 laas EEES 
13.2.1 基于 Cloudstack 的 laas 管 理 平 台 
CloudSstack 是 一 个 Apache 基 金 会 开源 的 具有 高 可 用 性 及 扩展 性 的 云 计算 平台 。 支 持 管理 大 部 分 主流 的 hypervisor， 如 KVM、XenServer、VMware、Oracle VM、Xen 等 。 它 可 以 帮助 用 户 利用 自己 


的 硬件 提供 类 似 于 Amazon EC2 那 样 的 公共 云 服 务 ， 可 以 通过 组 织 和 协调 用 户 的 虚拟 化 资源 ， 构 建 一 个 和 谐 的 环境 ， 兼 容 Amazon EC2API 接 口 。CloudStack 的 前 身 是 Cloud.com，2011 年 7 月 Citrix 收 购 
Cloud.com， 并 将 CloudStack100% 开 源 。2012 年 4 月 5 日 ，Citrix 又 宣布 将 其 拥有 的 CloudStack 开 源 软件 交 给 Apache 软 件 基金 会 管理 。CloudStack 已 经 有 了 许多 商用 客户 (如 图 13-4 所 示 ) ， 包 括 
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1. 部 署 架 构 
基于 国情 和 运营 商 分 布 考 虑 ， 在 CloudStack 的 部 署 架 构 上 PPTV 选 择 多 数据 中 心 、 多 管理 节点 和 集中 式 服 务 调度 管理 模式 。 如 图 13-5 所 示 ，Service Portal 部 署 在 BGP 机 房 或 者 多 线 机 房 ， 集 中 调度 和 管 


理 所 有 的 CloudStack 管 理 节点 。Service Portal 提 供 计算 节点 、 网 络 节点 和 存储 节点 的 编制 管理 ， 实 现 跨 数据 中 心 的 调度 和 弹性 计算 。 为 了 降低 Service Portal 的 管理 复杂 度 和 运行 风险 ，PPTV 设 计 了 多 级 
管理 模式 ， 一 个 BGP 或 者 多 线 机 房 的 CloudStack 管 理 节点 同时 也 负责 管理 多 个 较 小 数据 中 心 CloudStack 节 点 ，Service Portal 采 用 代理 模式 进行 管理 ， 降 低 管理 复杂 度 和 耦合 度 。 
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2. 计 算 节点 


使 用 KVM 作 为 虚拟 化 管理 程序 ， 宿 主机 OS 为 CentOS 6.2， 内 核 版 本 为 Linux 2.6.32, 


3. 网 络 节点 


基于 性 能 和 稳定 性 考虑 ， 使 用 CloudStack 基 础 网 络 模 式 并 创建 多 个 逻辑 网 络 。 


4. 存 储 服 务 


考虑 到 业务 场景 和 应 用 规模 ， 使 用 本 地 存储 作为 CloudStack 主 存储 ，OpenStack Swift 和 NFS 作 为 CloudStack 二 级 存储 。 


13.2.2 存储 服务 


存储 服务 主要 提供 分 布 式 文件 系统 、HDFS、 对 象 存 储 服务 。 如 图 13-6 所 示 ， 分 布 式 文件 系统 使 用 Moosefs 构 建 ， 主 要 提供 单机 房 数据 存储 服务 ， 不 提供 跨 数据 中 心 数据 同步 和 备份 。HDFS 为 大 数据 平 
台数 据 分 析 和 计算 使 用 ， 只 提供 单机 房 数据 服务 。 对 象 存储 由 OpenStack Swift 构建 ， 主 要 提供 全 局 跨 数 据 中 心 的 对 象 存储 服务 ， 实 现 多 机 房 数 据 同步 和 备份 。 
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图 13-6 ”存储 服务 模式 


13.2.3 ”基于 CloudStack 的 私有 云 平台 最 佳 实践 
1. 基 于 CloudStack 的 应 用 服务 交付 流程 
通过 CloudStack 的 使 用 提高 了 应 用 的 交付 效率 ， 实 现 了 弹性 的 容量 管理 服务 。 下 面 简要 描述 应 用 实例 交付 流程 。 
1) 运 维 管理 人 员 发 现 业务 容量 告警 或 者 应 用 扩容 需求 ， 通 过 Service Portal 发 送 实 例 创建 需求 ，Service Portal 根 据 相关 请 求 选择 对 应 区 域 的 CloudStack 节 点 。 
CloudStack 管 理 节 点 根据 应 用 信息 选择 相关 应 用 lImage， 并 选择 相关 资源 池 ， 创 建 应 用 实例 ， 并 启动 。 
应 用 实例 将 相关 实例 信息 注册 到 CMDB。 
系统 配置 管理 程序 ， 根 据 应 用 信息 更 新 相关 系统 包 ， 并 添加 相关 监控 信息 。 
2) 应 用 服务 启动 。 
应 用 部 署 程序 根据 应 用 信息 仓库 获取 最 新 应 用 信息 ， 并 安装 配置 。 
应 用 服务 器 相关 信息 被 注册 到 本 地 负载 均衡 器 。 
3) 服务 上 线 。 


应 用 服务 器 相关 信息 被 注册 到 全 局 负载 均衡 器 ， 应 用 服务 提供 线 上 服务 。 


2. 基 于 CloudStack 的 laaS 平 台 带 来 益处 


通过 使 用 Cloudstack 构 建 laas 平 台 后 ， 提 高 了 PPTV 应 用 的 交付 速度 和 效率 ， 降 低 了 管理 复杂 度 。 如 图 13-7 所 示 ， 通 过 Cloudstack 平 台 的 交付 使 用 ， 简 化 了 应 用 交付 流程 ， 实 现 了 自助 服务 管理 模式 ， 
降低 了 应 用 部 署 复杂 度 ， 实 现 了 计算 资源 的 弹性 化 。 
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图 13-7 基于 云 的 应 用 交付 流程 


13.3 ”MaaS 管 理 和 基础 服务 体系 


13.3.1 ”MaaS 管 理 架 构 


云 基础 设施 管理 主要 由 基础 设施 和 服务 编制 管理 平台 、CloudStack 服 务 管理 平台 和 物理 及 虚拟 化 层 组 成 ， 如 图 13-8 所 示 。 
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. 基础 设施 和 服务 编制 管理 平台 由 配置 管理 、 监 控 管理 、 运 维 管理 、 资 产 管理 、 负 载 均衡 管理 、 工 作 流 管理 等 系统 组 成 。 提 供 自 动 装机 、 自 动 监控 、 资 产 管理 、 配 置 管理 、 自 助 服务 管理 、 容 量 管理 
服务 。 通 过 编制 管理 系统 提供 自动 或 者 手动 的 服务 交付 ， 实 现 了 弹性 的 资源 管理 。 


图 13-8 云 基 础 设施 管理 架构 


* 服务 管理 平台 主要 由 CloudStack 调 度 和 管理 ， 包 括 计 算 资源 管理 、 网 络 资源 和 存储 资源 管理 。 


- 物理 及 虚拟 化 层 通过 客户 端 agent 执 行 相关 命令 及 数据 上 报 。 


13.3.2 ”自动 化 基础 设施 管理 架构 概述 


基于 Cloudstack 等 开源 组 件 ，PPTV 构 建 了 可 编程 的 基础 设施 管理 体系 ， 主 要 由 四 部 分 组 成 ， 如 图 13-9 所 示 ， 基 于 RESTFULVCLI 标 准 接口 实现 了 各 系统 的 集成 和 调度 。 


:系统 初始 化 : 提供 物理 主机 OS 安装 、 虚 拟 主 机 创建 、 镜 像 管理 、 资 产 管理 服务 。 
系统 配置 管理 : 提供 系统 初始 化 配置 管理 和 应 用 配置 管理 ， 包 分 发 和 管理 。 
«M 


监控 和 告警 管理 : 提供 硬件 级 别 、 系 统 级 别 、 应 用 级 别 的 监控 管理 和 告警 服务 管理 。 


. 服务 编制 管理 : 协调 多 个 组 件 多 步 协作 执行 和 管理 。 
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图 13-9 ”基础 设施 自动 化 管理 架 


13.3.3 ”开源 工具 链 


在 基础 设施 自动 化 管理 中 PPTV 使 用 了 大 量 开 源 软件 ， 开 源 软 件 的 使 用 缩短 了 平台 开发 和 建设 周期 ， 如 图 13-10 所 示 ， 下 面 是 各 服务 层 使 用 到 的 开源 软件 。 


- 系统 初始 化 : Cobbler, CloudStack, Koan 

配置 管理 : Puppet、SaltStack 

| 配置 管理 数据 库 : Cmdbuild 

. 资产 管理 : RackTable, OCS 

- 服务 编制 管理 : ControlTier、SaltStack 

. 应 用 服务 部 署 : ControlTier, GLU 

负载 均衡 : Bind. LVS, Haproxy. Nginx, Twemproxy 
Arg A XE AB: MooseFS 

:分布 式 对 象 存储 系统 : OpenStack Swift 


- 监控 系统 : Zabbix, Cacti 
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图 13-10 ”开源 工具 链 


1. 系 统 初始 化 服务 


系统 初始 化 服务 包括 物理 主机 发 现 服务 、 装 机 服务 和 虚拟 机 管理 服务 。 


1) 物理 主机 OS 由 管理 平台 调用 Cobbler 进 行 安装 和 配置 ， 通 过 Rsync 协 议 对 全 网 ISO 镜 像 同步 更 新 和 管理 ，Cobbler 部 署 架 构 如 图 13-11 所 示 。 
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图 13-11  Cobbler3f 4 2844 


2) 虚拟 主机 基于 Cloudstack 进 行 管 理 和 维护 ， 虚 拟 机 镜像 在 各 应 用 系统 更 新 后 会 自动 创建 和 生成 。 虚 拟 机 镜像 管理 如 图 13-12 所 示 。 


^ 
M 


Iemplates 


e Dashboard 
Templates 
a Instances 
SE SH 30312 shbnj KW f YA wot 
T. 
N Network 20130321 185555 xa aia $ y A 时 = 
cdtt "T = 
— 20130321200812 Eun x 2 了 A v m" 
Templates 
syct oan 
20130325114826 zycb KW $ yave 
Events 
cdtb : m 
20130423160334 cdtb KW $ 3 A wo 
A. Accounts 
= shbn- RECEN " shbnj KVN 4 Y A wv 天 
.@, Domains 
gztb -an= z b s 
20130503113128 ezt $ YA wv 四 
A Infrastructure 
grtt - b a . ` 
20130508155028 gz! 2 7 A v m 
[^ Projects Ue ; 
cdtb-advertising collection- 
20130508162522 adtb KW $ 了 A 里 = 


图 13-12 虚拟 机 镜像 管理 
2. 配 置 管理 服务 
(1) 系统 配置 管理 
使 用 Puppet 和 saltstack 对 系统 进行 初始 化 配置 和 管理 。 
(2) 应 用 服务 部 署 


基于 ControlTier、GLU 和 自行 研发 的 Release 系 统 对 应 用 进行 部 署 和 更 新 管理 。 如 图 13-13 所 示 。 


部 署 类 型 BS iz 提交 人 操作 人 操作 时 间 
JAVA ' SB st ch mtbu 1 € ʻiaot pu 二 操作 未 操作 


只 
üe 


2 MA7 
1 19-27 
2 MNA 
1 39:14 
M24 
21:08 
V02/14 
40:48 
| VOQN4 
13:22 
1/02/13 
57-05 
4/02/13 
:34:35 


JAVA, 3 :操作 


X YWRAI 
1 38:10 
2 TAI 
1 I 
21 173 

12 


JAVA V CB ch mtbu # Y o gu WEE XaotongXu 
Package m o: : 8x 


Package ni? ARR 


JAVA " f 4 F Fit 


JAYA i i : X ‘acnu 
JAVA 


JAVA 


JAYA 


PEEBEEEHEBE 


Package 


Package upicad muang 
图 13-13 ”应 用 部 署 管 理 console 
3. 资 产 管理 服务 


资产 管理 服务 由 资产 管理 系统 和 配置 管理 数据 库 组 成 ， 资 产 管理 通过 客户 端 agent 定 时 抓 取 和 发 现 新 的 资产 变化 。Racktable 管 理 物理 设备 和 虚拟 设备 区 域 分 布 等 详细 信息 ，OCS 提 供 软 硬 件 组 成 和 许可 
管理 等 信息 ， 配 置 管理 数据 记录 所 有 的 基础 设施 配置 信息 ， 如 图 13-14 所 示 。 
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图 13-14 资产 管理 系统 结构 图 
4. 负 载 均衡 管理 


负载 均衡 系统 由 全 局 负载 均衡 器 和 本 地 负载 均衡 器 组 成 ， 全 局 负载 均衡 器 提供 基于 运营 商 策 略 和 基于 地 理 信息 的 智能 调度 解析 服务 ， 本 地 负载 均衡 器 由 四 层 (LVS) 负载 均衡 器 和 七 层 负载 均衡 器 组 
成 ， 提 供 单数 据 中 心 的 负载 均衡 服务 ， 如 图 13-15 所 示 。LB 管 理 平台 负责 管理 所 有 节点 负载 均衡 器 的 配置 和 变更 管理 。 
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图 13-15 “负载 均衡 系统 架构 


5. 服 务 编制 管理 


服务 编制 管理 平台 主要 提供 跨 系统 、 跨 区 域 的 任务 执行 和 调度 。 


1) 通过 ControlTier 对 计划 任务 调度 和 执行 ， 工 作 流 定义 和 管理 ， 如 图 13-16 所 示 。 


© Johs 


ey Events 


Jobs (394) Filter 
Final Check (3) 
'(5) 

swe al (5) 
OLLF "CK (5) 
EPLt (7) 
FPCTA (5) 
View < (6) 

中 

3tv.com (2) 

pi (1) 

m (1) 

introl (9) 

ventory (2) 

ianager (3) 

3i (3) 

ase (7) 

ort rele 

lay.ppt 

W lay.ppt 

er ‘nacast = 

ast.c tel EF 

icast 5m e à 


1)eng 2 e ¥'"B_F Sadmin 


> Wy omi eb B... 1 
oml 1% VEB ^ 
"admit 
frt. 

mot 
droid 
x_B2! 
my 


iud ay 


epg.53 
“epG.: 
nfi- 


anger 


n e Cl 
IB 


"Play 


ud Play 


= d Resources 


All Projects... 


Executions (9) 
_play Der Execuvans (1) 
3. play Deploy 100% server or 1 server Executions (21) 
Executions (86) 
Executions (57) 
Executions (89) 


admir y i | 
'Gadmin Deploy epowt 
Executions (62) 
Executions (7) 


Executions (5) 


图 13-10 


2) 通过 SaltStack 对 实时 任务 进行 调度 和 执行 ， 如 图 13-17 所 示 。 
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6. 分 布 式 监控 和 告警 服务 


基于 Zabbix 构 建 了 整个 监控 体系 ,提供 物 理 硬件 设备 监控 、 


如 图 13-18，Zabbix Agent 被 安装 在 实例 端 ， 每 个 机 房 内 agent 将 数据 传送 到 该 机 房 的 Zabbix Proxy, 
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网 络 流量 和 应 用 系统 等 各 层面 监控 。 
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Zabbix Proxy 将 数据 汇集 后 传送 到 位 于 BGP 机 房 或 者 多 线 机 房 的 Zabbix Server, 
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13-18 ”监控 部 署 架构 
7. 分 布 式 缓存 服务 


PPTV 基 于 Redis 构 建 了 分 布 式 内 存 缓存 服务 ， 提 供 跨 数据 中 心 的 缓存 服务 。 
(1) 单机 房 部 署 


基于 不 同 服务 策略 提供 两 种 Redis 集 群 服务 ， 如 图 13-19。 
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图 13-19 分布 式 存储 单机 房 部 署 架构 


1) 读 写 分 离 的 Master 和 Slave 服 务 ， 前 端 负 载 均 衡器 对 请 求 进行 读 写 分 离 ，Master 通 过 同步 机 制 将 数据 同步 到 slave， 通 过 Zookeeper 管 理 主 从 状态 ， 当 Master 死 机 后 ， 集 群 中 一 台 Slave 会 自动 升级 
为 Master。 


2) 通过 一 致 性 Hash 算 法 实现 跨 Redis 集 群 读 写 数据 分 布 。 
(2) 多 机 房 部 署 


通过 GSLB 对 读 写 请 求 进行 调度 ， 写 请 求 调度 到 中 心 节点 机 房 ， 考 虑 到 运营 商 的 互 连 互通 性 ， 写 入 节点 被 部 署 在 BGP 或 者 多 线 机 房 。 所 有 数据 同步 通过 一 级 节点 逐步 同步 到 其 他 机 房 二 级 写 入 点 ， 如 图 
13-20 所 示 。 


(3) 监控 和 管理 


基于 基础 设施 监控 平台 对 Redis 实 例 进 行 监控 和 容量 管理 ， 通 过 云 管理 平台 实现 对 Redis 实 例 的 弹性 管理 。 
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图 13-21 显 示 Redis 相 关 监 控 指 标 和 监控 告警 项 ， 图 13-22 为 Redis 监 控 视 图 。 
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